國產(chǎn)大模型嶄露頭角,智源FlagEval評測榜單引領全球風潮!

原標題:全球百模爭霸,國產(chǎn)大模型拿下多個冠軍!智源FlagEval全球評測榜單出爐
文章來源:新智元
內(nèi)容字數(shù):5822字
2024年大模型評測綜述
隨著2024年接近尾聲,智源研究院發(fā)布了下半年大模型綜合評測結(jié)果,涵蓋了100多個開源和閉源模型,涉及文本、語音、圖像和視頻等多個領域。這一評測相較于今年5月的評估,任務解決能力的內(nèi)涵得到了擴展和細化,并首次增加了針對金融量化交易場景的應用能力評估。
1. 評測方法與新方向
本次評測引入了基于模型辯論的對比評估方式,深入分析了模型在邏輯推理、觀點理解和語言表達等方面的能力。此外,智源研究院結(jié)合K12學段的多學科試卷,考察了大模型與人類學生的能力差異,發(fā)現(xiàn)模型的綜合得分相較于半年前提升了12.86%。
2. 語言模型表現(xiàn)
在語言模型的主觀評測中,字節(jié)跳動的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo位列前兩名。客觀評測方面,OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest表現(xiàn)搶眼。盡管模型在一般中文場景的開放式問答中能力已趨于穩(wěn)定,但在復雜場景任務中,國內(nèi)頭部語言模型仍與國際一流水平存在顯著差距。
3. 多模態(tài)模型發(fā)展
多模態(tài)模型方面,OpenAI GPT-4o-2024-11-20和字節(jié)跳動Doubao-Pro-Vision-32k-241028在圖文理解任務上表現(xiàn)突出。文生圖模型的中文文字生成能力有所提升,但在復雜場景人物變形等方面仍存在不足,騰訊的Hunyuan Image表現(xiàn)最佳。文生視頻模型的畫質(zhì)和動態(tài)性均有所增強,但仍存在物體消失等問題。
4. 語音語言模型及專項評測
語音語言模型得益于文本大模型的進步,能力顯著提升,阿里巴巴的Qwen2-Audio排名第一。在專項評測中,智源研究院推出的FlagEval大模型角斗場和模型辯論平臺,進一步探討模型在邏輯推理和觀點表達方面的能力。
5. 未來發(fā)展與展望
智源評測體系的迭代覆蓋了全球800多款模型,致力于科學、公正的評估標準。未來,智源研究院將繼續(xù)探索動態(tài)評測與多任務能力評估,以提供對大模型技術生態(tài)發(fā)展的深入洞察。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

粵公網(wǎng)安備 44011502001135號