今日arXiv最熱大模型論文:浙江大學(xué):如何減輕視覺(jué)大模型中的幻覺(jué)問(wèn)題
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:今日arXiv最熱大模型論文:浙江大學(xué):如何減輕視覺(jué)大模型中的幻覺(jué)問(wèn)題
關(guān)鍵字:幻覺(jué),模型,數(shù)據(jù),報(bào)告,反饋
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):7423字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 謝年年大模型雖然能力強(qiáng),但一直飽受“幻覺(jué)”問(wèn)題的困擾,在視覺(jué)大模型(LVLMs)中更是如此,生成的文本包含與視覺(jué)輸入不正確的對(duì)象、屬性和關(guān)系。
比如圖中嘗試詢問(wèn)模型“小男孩和奶牛正在做什么?”
視覺(jué)大模型LLaVA-1.5-13b無(wú)法識(shí)別男孩正在喂牛。而LLaVA-1.6-34b未能識(shí)別襯衫的顏色,并錯(cuò)誤判斷了男孩和牛之間的空間關(guān)系。
對(duì)于“詳細(xì)描述圖片內(nèi)容”的任務(wù),LLaVA-1.5-13b描述圖片時(shí)錯(cuò)誤地提到滑板手旁邊還有一個(gè)人,且圖像右側(cè)邊緣附近還有一個(gè)滑板。LLaVA-1.6-34b將灰色的巖石識(shí)別為臨時(shí)的坡道,并將滑板描述為黃色和黑色。
今天介紹的這篇文章,是從一個(gè)細(xì)粒度的角度來(lái)識(shí)別與緩解LVLMs中的幻覺(jué)問(wèn)題,流程如下圖所示:
首先通過(guò)GPT4和GPT4V生成一個(gè)小型的句子級(jí)幻覺(jué)標(biāo)注數(shù)據(jù)集,然后訓(xùn)練一個(gè)幻覺(jué)檢測(cè)模型,再通過(guò)該檢測(cè)模型和重寫(xiě)模型構(gòu)建偏好數(shù)據(jù)集,并設(shè)計(jì)幻覺(jué)嚴(yán)重程度感知的DPO訓(xùn)練方式微調(diào)視覺(jué)大模型,在多個(gè)基準(zhǔn)上驗(yàn)證了方法的有效性。
論文標(biāo)題:Detecting and Mitigating Hallucination in Large
原文鏈接:今日arXiv最熱大模型論文:浙江大學(xué):如何減輕視覺(jué)大模型中的幻覺(jué)問(wèn)題
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬(wàn)AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺(jué)和洞察深度。商務(wù)合作:zym5189