AIGC動態歡迎閱讀
原標題:今日arXiv最熱大模型論文:浙江大學:如何減輕視覺大模型中的幻覺問題
關鍵字:幻覺,模型,數據,報告,反饋
文章來源:夕小瑤科技說
內容字數:7423字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年大模型雖然能力強,但一直飽受“幻覺”問題的困擾,在視覺大模型(LVLMs)中更是如此,生成的文本包含與視覺輸入不正確的對象、屬性和關系。
比如圖中嘗試詢問模型“小男孩和奶牛正在做什么?”
視覺大模型LLaVA-1.5-13b無法識別男孩正在喂牛。而LLaVA-1.6-34b未能識別襯衫的顏色,并錯誤判斷了男孩和牛之間的空間關系。
對于“詳細描述圖片內容”的任務,LLaVA-1.5-13b描述圖片時錯誤地提到滑板手旁邊還有一個人,且圖像右側邊緣附近還有一個滑板。LLaVA-1.6-34b將灰色的巖石識別為臨時的坡道,并將滑板描述為黃色和黑色。
今天介紹的這篇文章,是從一個細粒度的角度來識別與緩解LVLMs中的幻覺問題,流程如下圖所示:
首先通過GPT4和GPT4V生成一個小型的句子級幻覺標注數據集,然后訓練一個幻覺檢測模型,再通過該檢測模型和重寫模型構建偏好數據集,并設計幻覺嚴重程度感知的DPO訓練方式微調視覺大模型,在多個基準上驗證了方法的有效性。
論文標題:Detecting and Mitigating Hallucination in Large
原文鏈接:今日arXiv最熱大模型論文:浙江大學:如何減輕視覺大模型中的幻覺問題
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189