一次可輸入多張圖像，還能多輪對話！最新開源數據集，讓AI更接近現實

一次可輸入多張圖像，還能多輪對話！最新開源數據集，讓AI聊天更接近現實

AIGC動態歡迎閱讀

原標題：一次可輸入多張圖像，還能多輪對話！最新開源數據集，讓AI更接近現實
關鍵字：報告,圖像,模型,基準,長上
文章來源：量子位
內容字數：0字

內容摘要：

劉子煜投稿量子位 | 公眾號 QbitAI大模型對話能更接近現實了！
不僅可以最多輸入20張圖像，還能支持多達27輪對話。可處理文本+圖像tokens最多18k。
這就是最新開源的超長多圖多輪對話理解數據集MMDU（Multi-Turn Multi-Image Dialog Understanding）。
大型視覺語言模型（LVLMs）的核心能力之一是生成自然且有意義的回答，從而能夠與人類進行流暢的圖文對話。
盡管目前開源的LVLMs在如單輪單圖輸入等簡化場景中展示出了不錯的潛力，但在具有長上下文長度，且需要多輪對話和多圖輸入的真實對話場景中，表現則相對不足。
此外，現有的LVLM Benchmarks主要采用單項選擇題或簡短回答的形式，難以全面評估LVLMs在真實世界人機互動應用中的表現。
為此，研究團隊在論文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多圖多輪評測基準MMDU及大規模指令微調數據集MMDU-45k，旨在評估

原文鏈接：一次可輸入多張圖像，還能多輪對話！最新開源數據集，讓AI更接近現實

聯系作者

文章來源：量子位
作者微信：QbitAI
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # 圖像 # 基準 # 報告 # 模型 # 長上

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

一次可輸入多張圖像，還能多輪對話！最新開源數據集，讓AI更接近現實

AIGC動態歡迎閱讀

內容摘要：

聯系作者

AI小分子藥物發現的「百科全書」，康奈爾、劍橋、EPFL等研究者綜述登Nature子刊

AI 又一突破！新型神經元網絡模型問世：更強的環境感知，更好的人腦模仿

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

一次可輸入多張圖像，還能多輪對話！最新開源數據集，讓AI更接近現實

AIGC動態歡迎閱讀

內容摘要：

聯系作者

AI小分子藥物發現的「百科全書」，康奈爾、劍橋、EPFL等研究者綜述登Nature子刊

AI 又一突破！新型神經元網絡模型問世：更強的環境感知，更好的人腦模仿

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

一次可輸入多張圖像，還能多輪對話！最新開源數據集，讓AI更接近現實

AI小分子藥物發現的「百科全書」，康奈爾、劍橋、EPFL等研究者綜述登Nature子刊

AI 又一突破！新型神經元網絡模型問世：更強的環境感知，更好的人腦模仿