陳丹琦團隊圖表解讀新基準：新王Claude3.5剛及格，但已是模型最強推理表現

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：陳丹琦團隊圖表解讀新基準：新王Claude3.5剛及格，但已是模型最強推理表現
關鍵字：模型,圖表,問題,任務,能力
文章來源：量子位
內容字數：0字

內容摘要：

克雷西發自凹非寺量子位 | 公眾號 QbitAIClaude 3.5 Sonnet的圖表推理能力，比GPT-4o高出了27.8%。
針對多模態大模型在圖表任務上的表現，陳丹琦團隊提出了新的測試基準。
新Benchmark比以往更有區分度，也讓一眾傳統測試中的高分模型暴露出了真實能力。
該數據集名為CharXiv，內容全部選自arXiv論文中的真實圖表，共計2323張。
相比此前的FigureQA等測試基準，CharXiv涵蓋的任務類型更加廣泛，而且不按套路出牌，難度大幅增加。
為了宣傳這套新Benchmark，研究團隊還寫出了一首神曲，并制作了視頻宣傳片。
這段魔性的宣傳片，讓有些網友表示已經被成功“”，腦海中充滿了（歌詞中的）“2323張圖表”。
導師陳丹琦也感到印象十分深刻，直言這是自己見過最fancy的視頻。
那么，CharXiv究竟新在哪，又難在哪呢？
來自學術論文的圖表測試集團隊指出，過去的表格測試標準太過簡單，而且不能反映模型的真實水平。
比如FigureQA、DVQA 和ChartQA的子集，只要稍作簡單修改，模型的成績就能下降超過1/3。
究其原因，作者認為

原文鏈接：陳丹琦團隊圖表解讀新基準：新王Claude3.5剛及格，但已是模型最強推理表現