<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        智源發布FlagEval「百模」評測結果,丈量模型生態變局

        AIGC動態9個月前發布 機器之心
        468 0 0

        評測全面升級,多維度探索模型能力邊界與應用潛能。

        智源發布FlagEval「百模」評測結果,丈量模型生態變局

        原標題:智源發布FlagEval「百模」評測結果,丈量模型生態變局
        文章來源:機器之心
        內容字數:5780字

        智源研究院發布2024年下半年大模型評測結果

        智源研究院于2024年12月19日發布了對100多個開源和閉源大模型的綜合評測結果,該評測涵蓋語言、視覺語言、文生圖、文生視頻以及語音語言模型等多個領域。相較于今年5月的評測,本次評測在任務類型、評測維度上進行了顯著擴展和細化。

        1. 評測范圍與重點

        本次評測新增了數據處理、高級編程和工具調用等能力評估,首次引入面向真實金融量化交易場景的應用能力評估,并首次探索基于模型辯論的對比評估方式。評測結果顯示,2024年下半年大模型發展更聚焦綜合能力提升與實際應用,多模態模型發展迅速,而語言模型發展相對放緩。

        2. 語言模型評測結果

        在語言模型主觀評測中,字節跳動Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo表現最佳;客觀評測中,OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest排名靠前。雖然在一般中文場景下模型能力趨于飽和,但在復雜場景任務中,國內頭部語言模型與國際一流水平仍存在差距。

        3. 多模態模型評測結果

        視覺語言多模態模型方面,開源模型在圖文理解任務上正在縮小與閉源模型的差距,但長尾視覺知識和復雜圖文數據分析能力仍需提升。OpenAI GPT-4o-2024-11-20和字節跳動Doubao-Pro-Vision-32k-241028表現領先。文生圖模型已具備中文文字生成能力,但在復雜場景下仍存在人物變形等問題。騰訊Hunyuan Image排名第一。文生視頻模型畫質和動態性提升顯著,但仍存在動作變形、違反物理規律等問題。快手可靈1.5排名靠前。

        4. 語音語言模型評測結果

        語音語言模型能力提升顯著,但與專業模型仍存在差距,性能好、通用能力強的開源模型較少。阿里巴巴Qwen2-Audio排名第一。

        5. K12學科測驗及用戶偏好

        智源研究院聯合海淀區教師進修學校對大模型進行了K12學科測驗,結果顯示模型綜合得分較半年前提升,但在某些學科上仍落后于人類學生。用戶偏好評測(FlagEval)顯示,用戶更注重模型響應速度和輸出結構化程度。

        6. 模型辯論評測

        模型辯論評測(FlagEval Debate)顯示,大模型普遍缺乏辯論框架意識,容易出現“幻覺”問題。Anthropic Claude-3-5-sonnet-20241022表現最佳。

        7. 金融量化交易評測

        金融量化交易評測顯示,大模型已具備生成量化交易策略代碼的能力,頭部模型能力接近初級量化交易員水平。深度求索Deepseek-chat排名第一。

        8. FlagEval平臺迭代

        智源研究院的FlagEval大模型評測平臺已覆蓋全球800多個模型,并持續迭代更新評測數據和方法,以保證評測的科學性和權威性。

        總而言之,智源研究院的此次評測結果為大模型發展提供了重要的參考,也指明了未來大模型發展方向——提升綜合能力、拓展實際應用,以及解決模型的“幻覺”等問題。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 色婷婷亚洲十月十月色天| 浮力影院亚洲国产第一页| 久久久久亚洲AV无码麻豆| 午夜免费福利小电影| 国产AV无码专区亚洲A∨毛片| GOGOGO高清免费看韩国| 亚洲日韩在线中文字幕第一页| 有码人妻在线免费看片| 亚洲国产av无码精品| 久久国产精品免费一区| 国产成A人亚洲精V品无码| 午夜不卡久久精品无码免费| 91亚洲导航深夜福利| 在线视频免费观看高清| 亚洲AV女人18毛片水真多| 亚洲成片观看四虎永久| 最新亚洲成av人免费看| 久久久亚洲裙底偷窥综合| 18禁超污无遮挡无码免费网站国产 | 日韩成人毛片高清视频免费看| 亚洲成年看片在线观看| a在线视频免费观看| 亚洲黄色在线视频| 午夜免费福利在线| 国产免费伦精品一区二区三区| 亚洲国产精品SSS在线观看AV| **真实毛片免费观看| 亚洲欧美日韩中文字幕一区二区三区| 四虎永久成人免费| 免费黄色电影在线观看| 亚洲宅男精品一区在线观看| 亚洲AV网站在线观看| 在线涩涩免费观看国产精品| 亚洲精品天堂在线观看| 亚洲Av无码乱码在线znlu| 99re在线这里只有精品免费| 亚洲AV综合永久无码精品天堂| 亚洲中文字幕无码日韩| 无码人妻久久一区二区三区免费丨 | 久久精品免费一区二区| 色多多免费视频观看区一区|