今日Arxiv最熱NLP大模型論文：浙江大學發布統一的幻覺檢測框架UNIHD

AIGC動態1年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：今日Arxiv最熱NLP大模型論文：浙江大學發布統一的幻覺檢測框架UNIHD
關鍵字：幻覺,圖像,文本,模型,工具
文章來源：夕小瑤科技說
內容字數：9594字

內容摘要：

夕小瑤科技說原創作者 | 芒果、Python引言：多模態大語言模型的幻覺問題及其重要性在人工智能領域，多模態大語言模型（MLLMs）已經取得了顯著的進步，它們在多種任務中展現出了類似人類認知和學習的能力，為人工通用智能（AGI）的未來開辟了前所未有的可能性。然而，盡管MLLMs在處理復雜任務時表現出色，它們仍然容易產生一種被稱為“幻覺”的現象。這種現象指的是模型生成的內容雖然看似可信，但實際上與輸入數據或已建立的世界知識相矛盾。這些幻覺不僅妨礙了MLLMs的實際部署，還可能導致錯誤信息的傳播。
因此，能夠檢測MLLMs響應中的多模態幻覺的檢測器迫切需要，以便向用戶警示潛在風險，并推動更可靠MLLMs的發展。然而，現有的研究工作存在局限性，例如專注于單一任務、幻覺類別范圍有限，以及缺乏細粒度的評估。這些限制阻礙了實際幻覺檢測進展的快速發展，提出了一個問題：我們能否開發出一種統一的視角來檢測MLLMs中的幻覺？
為了應對這一挑戰，該研究提出了一個任務不可知的、工具增強的統一多模態幻覺檢測框架UNIHD，該框架通過一系列輔助工具來驗證幻覺的發生。還提出了一個新的多模態基準測試MHaluBe

原文鏈接：今日Arxiv最熱NLP大模型論文：浙江大學發布統一的幻覺檢測框架UNIHD