AIGC動態歡迎閱讀
原標題:一次可輸入多張圖像,還能多輪對話!最新開源數據集,讓AI更接近現實
關鍵字:報告,圖像,模型,基準,長上
文章來源:量子位
內容字數:0字
內容摘要:
劉子煜 投稿量子位 | 公眾號 QbitAI大模型對話能更接近現實了!
不僅可以最多輸入20張圖像,還能支持多達27輪對話。可處理文本+圖像tokens最多18k。
這就是最新開源的超長多圖多輪對話理解數據集MMDU(Multi-Turn Multi-Image Dialog Understanding)。
大型視覺語言模型(LVLMs)的核心能力之一是生成自然且有意義的回答,從而能夠與人類進行流暢的圖文對話。
盡管目前開源的LVLMs在如單輪單圖輸入等簡化場景中展示出了不錯的潛力,但在具有長上下文長度,且需要多輪對話和多圖輸入的真實對話場景中,表現則相對不足。
此外,現有的LVLM Benchmarks主要采用單項選擇題或簡短回答的形式,難以全面評估LVLMs在真實世界人機互動應用中的表現。
為此,研究團隊在論文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多圖多輪評測基準MMDU及大規模指令微調數據集MMDU-45k,旨在評估
原文鏈接:一次可輸入多張圖像,還能多輪對話!最新開源數據集,讓AI更接近現實
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...