浙大李璽團(tuán)隊(duì):指代表達(dá)理解新方法,ScanFormer粗到細(xì)迭代消除視覺冗余
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:浙大李璽團(tuán)隊(duì):指代表達(dá)理解新方法,ScanFormer粗到細(xì)迭代消除視覺冗余
關(guān)鍵字:尺度,特征,圖像,模型,區(qū)域
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com該論文作者均來自于浙江大學(xué)李璽教授團(tuán)隊(duì),論文第一作者為博士生蘇偉同學(xué),通訊作者為李璽教授(IET Fellow,國家杰青)。李璽教授團(tuán)隊(duì)近年來在國際權(quán)威期刊(如 TPAMI、IJCV 等)和國際頂級學(xué)術(shù)會(huì)議(ICCV、CVPR、ECCV 等)上發(fā)表 180 余篇 CV/AIGC 相關(guān)的研究工作,和國內(nèi)外知名高校、科研機(jī)構(gòu)廣泛開展合作。
作為基礎(chǔ)的視覺語言任務(wù),指代表達(dá)理解(referring expression comprehension, REC)根據(jù)自然語言描述來定位圖中被指代的目標(biāo)。REC 模型通常由三部分組成:視覺編碼器、文本編碼器和跨模態(tài)交互,分別用于提取視覺特征、文本特征和跨模態(tài)特征特征交互與增強(qiáng)。
目前的研究大多集中在設(shè)計(jì)高效的跨模態(tài)交互模塊以
原文鏈接:浙大李璽團(tuán)隊(duì):指代表達(dá)理解新方法,ScanFormer粗到細(xì)迭代消除視覺冗余
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:
相關(guān)文章
