AIGC動態歡迎閱讀
文章來源:夕小瑤科技說
內容字數:11469字
內容摘要:夕小瑤科技說 原創作者 | 智商掉了一地、Python當前,多模態大型模型(Multi-modal Large Language Model, MLLM)在視覺問答(VQA)領域展現了卓越的能力。然而,真正的挑戰在于知識密集型 VQA 任務,這要求不僅要識別視覺元素,還需要結合知識庫來深入理解視覺信息。本文對 MLLM,尤其是近期提出的 GPT-4V,從理解、推理和解釋等方面進行了綜合評估。結果表明,當前開源 MLLM 的視覺理解能力在很大程度上落后于 GPT-4V,尤其是上下文學習能力需要進一步提升。并且,在廣泛的常識類別中,GPT-4V 的問答水平也是明顯領先的。▲圖1 知識密集型視覺問答(VQA)任務的評估框架如圖 1 所示,該框架從三個維度進行了深入評估:常識知識:評估模型如何理解視覺線索并與常識知識聯系;精細化的世界知識:測試模型從圖像中推理出特定專業領域知識的能力;具有決策基礎…
原文鏈接:點此閱讀原文:新王加冕,GPT-4V 屠榜視覺問答
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI應用開發者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯網大廠,兼備媒體sense與技術深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...