今日Arxiv最熱NLP大模型論文:浙江大學(xué)發(fā)布統(tǒng)一的幻覺(jué)檢測(cè)框架UNIHD
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:今日Arxiv最熱NLP大模型論文:浙江大學(xué)發(fā)布統(tǒng)一的幻覺(jué)檢測(cè)框架UNIHD
關(guān)鍵字:幻覺(jué),圖像,文本,模型,工具
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):9594字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 芒果、Python引言:多模態(tài)大語(yǔ)言模型的幻覺(jué)問(wèn)題及其重要性在人工智能領(lǐng)域,多模態(tài)大語(yǔ)言模型(MLLMs)已經(jīng)取得了顯著的進(jìn)步,它們?cè)诙喾N任務(wù)中展現(xiàn)出了類(lèi)似人類(lèi)認(rèn)知和學(xué)習(xí)的能力,為人工通用智能(AGI)的未來(lái)開(kāi)辟了前所未有的可能性。然而,盡管MLLMs在處理復(fù)雜任務(wù)時(shí)表現(xiàn)出色,它們?nèi)匀蝗菀桩a(chǎn)生一種被稱(chēng)為“幻覺(jué)”的現(xiàn)象。這種現(xiàn)象指的是模型生成的內(nèi)容雖然看似可信,但實(shí)際上與輸入數(shù)據(jù)或已建立的世界知識(shí)相矛盾。這些幻覺(jué)不僅妨礙了MLLMs的實(shí)際部署,還可能導(dǎo)致錯(cuò)誤信息的傳播。
因此,能夠檢測(cè)MLLMs響應(yīng)中的多模態(tài)幻覺(jué)的檢測(cè)器迫切需要,以便向用戶(hù)警示潛在風(fēng)險(xiǎn),并推動(dòng)更可靠MLLMs的發(fā)展。然而,現(xiàn)有的研究工作存在局限性,例如專(zhuān)注于單一任務(wù)、幻覺(jué)類(lèi)別范圍有限,以及缺乏細(xì)粒度的評(píng)估。這些限制阻礙了實(shí)際幻覺(jué)檢測(cè)進(jìn)展的快速發(fā)展,提出了一個(gè)問(wèn)題:我們能否開(kāi)發(fā)出一種統(tǒng)一的視角來(lái)檢測(cè)MLLMs中的幻覺(jué)?
為了應(yīng)對(duì)這一挑戰(zhàn),該研究提出了一個(gè)任務(wù)不可知的、工具增強(qiáng)的統(tǒng)一多模態(tài)幻覺(jué)檢測(cè)框架UNIHD,該框架通過(guò)一系列輔助工具來(lái)驗(yàn)證幻覺(jué)的發(fā)生。還提出了一個(gè)新的多模態(tài)基準(zhǔn)測(cè)試MHaluBe
原文鏈接:今日Arxiv最熱NLP大模型論文:浙江大學(xué)發(fā)布統(tǒng)一的幻覺(jué)檢測(cè)框架UNIHD
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:更快的AI前沿,更深的行業(yè)洞見(jiàn)。聚集25萬(wàn)AI一線(xiàn)開(kāi)發(fā)者、互聯(lián)網(wǎng)中高管和機(jī)構(gòu)投資人。一線(xiàn)作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)湫袠I(yè)嗅覺(jué)與報(bào)道深度。