智源一次性發(fā)布超 100 個(gè)大模型評測結(jié)果,文本到視頻等多模態(tài)領(lǐng)域全覆蓋
12 月 19 日,智源研究院發(fā)布并解讀國內(nèi)外 100 余個(gè)開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項(xiàng)評測結(jié)果。

原標(biāo)題:智源一次性發(fā)布超 100 個(gè)大模型評測結(jié)果,文本到視頻等多模態(tài)領(lǐng)域全覆蓋
文章來源:AI前線
內(nèi)容字?jǐn)?shù):6483字
智源研究院大模型評測結(jié)果解讀:綜合能力提升與實(shí)際應(yīng)用成焦點(diǎn)
1. **評測概述:** 智源研究院發(fā)布了對100多個(gè)開源和閉源大模型的綜合評測結(jié)果,涵蓋語言、視覺語言、文生圖、文生視頻、語音語言等多種模態(tài)。評測不僅擴(kuò)展了任務(wù)類型,還首次引入了金融量化交易場景評估和基于模型辯論的對比評估方式,對模型能力進(jìn)行了更全面、細(xì)致的考察。
2. **大模型發(fā)展趨勢:** 2024年下半年,大模型發(fā)展呈現(xiàn)出向綜合能力提升和實(shí)際應(yīng)用方向聚焦的趨勢。多模態(tài)模型發(fā)展迅速,涌現(xiàn)出許多新廠商和新模型,而語言模型發(fā)展相對放緩。開源生態(tài)也更加活躍,出現(xiàn)了新的開源貢獻(xiàn)者。用戶對模型的響應(yīng)速度和輸出結(jié)構(gòu)化程度要求更高。
3. **語言模型評測:** 在中文場景下,語言模型的開放式問答和生成任務(wù)能力趨于飽和,但在復(fù)雜場景任務(wù)方面,國內(nèi)頭部模型與國際一流水平仍存在差距。主觀評測中,字節(jié)跳動Doubao-pro和百度ERNIE 4.0 Turbo表現(xiàn)領(lǐng)先;客觀評測中,OpenAI o1-mini和Google Gemini-1.5-pro表現(xiàn)突出。
4. **多模態(tài)模型評測:**
4.1 **視覺語言模型:** 開源模型在圖文理解任務(wù)上正在追趕閉源模型,但在長尾視覺知識、文字識別和復(fù)雜圖文數(shù)據(jù)分析方面仍有提升空間。OpenAI GPT-4o和字節(jié)跳動Doubao-Pro-Vision表現(xiàn)領(lǐng)先。
4.2 **文生圖模型:** 頭部模型已具備中文文字生成能力,但復(fù)雜場景人物變形問題依然存在。數(shù)量關(guān)系推理能力有所提升,但對中國文化和古詩詞的理解仍是挑戰(zhàn)。騰訊Hunyuan Image位列第一。
4.3 **文生視頻模型:** 畫質(zhì)、動態(tài)性和鏡頭語言都有提升,但動作變形、物理規(guī)律理解不足等問題依然存在。快手可靈1.5表現(xiàn)領(lǐng)先。
4.4 **語音語言模型:** 得益于文本大模型的進(jìn)步,能力顯著提升,但與專業(yè)模型仍存在差距。阿里巴巴Qwen2-Audio表現(xiàn)最佳。
5. **FlagEval平臺評測:** 智源研究院的FlagEval大模型角斗場和FlagEval Debate平臺對模型進(jìn)行了用戶偏好和邏輯推理能力的評估。用戶更傾向于快速響應(yīng)和結(jié)構(gòu)化輸出。在模型辯論中,模型普遍缺乏辯論框架意識和邏輯嚴(yán)謹(jǐn)性,Anthropic Claude-3-5-sonnet表現(xiàn)最佳。
6. **金融量化交易評測:** 評測發(fā)現(xiàn)大模型已能生成具有收益的量化交易策略代碼,頭部模型能力接近初級量化交易員水平。深度求索Deepseek-chat表現(xiàn)領(lǐng)先。
7. **K12學(xué)科評測:** 大模型在K12學(xué)科測驗(yàn)中的綜合得分較半年前提升,部分模型在英語和歷史科目上超越了人類考生平均分,但“文強(qiáng)理弱”的偏科現(xiàn)象依然存在。
8. **評測平臺:** 智源研究院的FlagEval平臺已覆蓋800多個(gè)模型,包含20多種任務(wù)和90多個(gè)數(shù)據(jù)集,并持續(xù)更新評測數(shù)據(jù)和提升題目難度,以應(yīng)對數(shù)據(jù)集泄露和飽和度問題。
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例,助你全面擁抱AIGC。

粵公網(wǎng)安備 44011502001135號