国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Claude 3.7硬控馬里奧90秒,GPT-4o開局暴斃!Karpathy直呼基準失效,游戲成LLM新戰場

AIGC動態7個月前發布 新智元
377 0 0

Claude 3.7硬控馬里奧90秒,GPT-4o開局暴斃!Karpathy直呼基準失效,游戲成LLM新戰場

原標題:Claude 3.7硬控馬里奧90秒,GPT-4o開局暴斃!Karpathy直呼基準失效,游戲成LLM新戰場
文章來源:新智元
內容字數:3651字

AI評估新標準:游戲測試的興起

近年來,大型語言模型(LLM)的評估標準一直備受爭議。Andrej Karpathy等AI專家也表達了對現有基準的擔憂,例如MMLU、SWE-Bench Verified和Chatbot Arena等,都存在各自的局限性。 面對這一“評估危機”,一個新興的評估方向正悄然興起——游戲測試。

  1. 游戲測試:超越傳統基準

    文章指出,經典游戲,如超級馬里奧和2048,正成為評估LLM智能體的新標桿。這源于游戲測試能夠更全面地評估AI的規劃能力、問題解決能力以及適應性等多方面能力,而這些能力是傳統文本基準難以完全捕捉的。

  2. 超級馬里奧:AI能力拼

    加州大學圣迭戈分校Hao AI Lab開發的“游戲智能體” (CUA) 對多個LLM進行了超級馬里奧游戲測試。結果顯示,Claude 3.7 Sonnet的表現尤為突出,能夠持續游戲90秒,并展現出更高級的策略,例如躲避敵人、尋找隱藏獎勵等,遠超OpenAI的GPT-4、GPT-4.0和谷歌的Gemini系列模型。GPT-4.0甚至在第一關就被擊敗,而Gemini 1.5和2.0則表現出簡單的重復性動作,例如“兩步一跳”。

  3. 其他游戲測試:更全面的評估

    除了超級馬里奧,Hao AI Lab還對2048和方塊進行了測試。在2048游戲中,Claude 3.7的表現優于GPT-4.0,但在方塊中,Claude 3.7的表現則沒有詳細描述。這些測試結果進一步表明,游戲測試能夠提供更豐富、更直觀的AI能力評估。

  4. 游戲測試的未來

    文章最后指出,游戲測試有望成為LLM評估的新標準,并引發了更多討論和探索。Anthropic的開發者也表達了對這一方法的肯定,認為將各種電子游戲都作為評估工具具有巨大潛力。未來,更多游戲和更先進的AI模型有望加入這一測試。

總而言之,文章認為,基于游戲的AI評估方法,能夠更全面地考察AI的智力水平,為AI發展提供更有效的評估手段,并預示著LLM評估領域的新篇章。


聯系作者

文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        午夜欧美视频在线观看 | 久久久久久99精品| 青娱乐精品在线视频| 欧美丰满一区二区免费视频 | 91精品婷婷国产综合久久性色| 91精品国产综合久久福利软件| 国产三级三级三级精品8ⅰ区| 亚洲伦在线观看| 欧亚洲嫩模精品一区三区| 视频一区视频二区中文字幕| 日韩一区二区免费在线观看| 国产又黄又大久久| 中文字幕永久在线不卡| 欧美精品乱码久久久久久| 国产最新精品免费| 日韩欧美高清一区| 国产一区二区三区免费观看| 国产精品久久久99| 国产精品12区| 亚洲男人的天堂av| 欧美精品一区二区三区在线| 91在线精品一区二区| 奇米影视一区二区三区小说| 国产精品国产三级国产专播品爱网| 激情综合网最新| 亚洲欧美综合色| 99久久久无码国产精品| 国产午夜精品一区二区三区视频| 蜜臀91精品一区二区三区| 中文字幕在线观看不卡视频| 欧美日韩一区视频| 成人动漫一区二区| 狠狠色丁香婷综合久久| 亚洲国产精品自拍| 中文字幕制服丝袜一区二区三区| 成人h精品动漫一区二区三区| 国产色综合久久| 欧美吻胸吃奶大尺度电影| 成人性色生活片| 久久国产综合精品| 久久综合色一综合色88| 51久久夜色精品国产麻豆| 色妹子一区二区| 99久久久精品免费观看国产蜜| 亚洲欧美日韩电影| 久久久99精品免费观看| 91精品久久久久久久99蜜桃| 久久se精品一区精品二区| 一区二区免费在线播放| 亚洲同性gay激情无套| 国产网站一区二区| 在线影视一区二区三区| 91一区在线观看| 成人免费视频播放| 粉嫩13p一区二区三区| 国产91精品在线观看| 国产精品18久久久久久久久| 国产精品网站在线播放| 成人综合在线视频| 国产成人超碰人人澡人人澡| 国产乱子伦一区二区三区国色天香| 国产精品久久久久婷婷| 2020国产精品久久精品美国| 欧美一激情一区二区三区| 91精品欧美福利在线观看| 91精品国产综合久久福利软件| av电影天堂一区二区在线观看| 亚洲精品成人精品456| 亚洲精品va在线观看| 亚洲成av人片在线观看无码| 午夜国产不卡在线观看视频| 日韩高清不卡在线| 国产在线观看一区二区| 成人福利视频网站| 欧美日韩在线播放三区| 成人免费视频caoporn| 成人av午夜电影| 在线国产亚洲欧美| 欧美精品99久久久**| 久久久久久影视| 亚洲少妇30p| 日韩激情中文字幕| 国产精品中文字幕日韩精品| 99久久精品国产麻豆演员表| 国产在线精品不卡| 麻豆成人av在线| 成人免费看黄yyy456| 欧美性色综合网| 久久久五月婷婷| 精品久久久久久久久久久久久久久 | 972aa.com艺术欧美| 欧美在线免费观看视频| 欧美大片日本大片免费观看| 欧美日韩国产综合一区二区三区| 不卡av在线免费观看| 国产成人一区在线| 欧美视频中文字幕| 久久久精品黄色| 亚洲国产视频一区| 国产激情视频一区二区在线观看| 精品在线播放午夜| 91免费看视频| 久久久亚洲午夜电影| 久久亚洲综合色一区二区三区| 日韩一区二区三| 亚洲精选视频免费看| 国产乱理伦片在线观看夜一区| 国产美女精品一区二区三区| 日本精品视频一区二区三区| 国产偷v国产偷v亚洲高清| 日韩福利视频网| 国内成人免费视频| 欧美写真视频网站| 91精品国产黑色紧身裤美女| 欧美精选午夜久久久乱码6080| 欧美顶级少妇做爰| 国产精品福利av| 一区二区三区欧美在线观看| 国产福利不卡视频| 日韩精品一区二区三区中文精品| 精品成a人在线观看| 五月天欧美精品| 久久99国产乱子伦精品免费| 欧美在线播放高清精品| 1024亚洲合集| 国产凹凸在线观看一区二区| 精品乱人伦小说| 美腿丝袜亚洲综合| 日韩一区二区三区观看| 日本成人在线电影网| 欧美日韩国产精品成人| 亚洲一级二级三级在线免费观看| 美女视频一区二区| 欧美一区二区黄| 日本欧美一区二区三区| 欧美人牲a欧美精品| 日韩高清在线不卡| 欧美mv和日韩mv的网站| 精品无码三级在线观看视频| 精品理论电影在线| 亚洲欧美日韩久久精品| 91在线无精精品入口| 亚洲精品国产品国语在线app| 另类中文字幕网| 久久久久国产一区二区三区四区| 一区二区三区在线免费| 在线观看一区日韩| 五月天精品一区二区三区| 91精品国产入口在线| 极品少妇一区二区| 中文字幕在线观看不卡视频| 日本高清无吗v一区| 天天操天天干天天综合网| 欧美精品一区二区在线观看| 成人在线视频一区二区| 亚洲人成小说网站色在线| 欧美日韩国产美| 国产伦精品一区二区三区视频青涩 | 日韩视频123| 国产成人aaa| 一区二区三区中文字幕精品精品| 国产一区二区视频在线播放| 欧美日韩一区二区在线视频| 国产免费观看久久| 亚洲精品中文在线| 色伊人久久综合中文字幕| 日韩理论片网站| 欧美日韩一区高清| 韩国女主播一区| 亚洲三级在线看| 6080日韩午夜伦伦午夜伦| 国产乱子轮精品视频| 一区二区三区在线高清| 日韩一区二区在线播放| 不卡的电视剧免费网站有什么| 91精品在线免费观看| 国产99久久久精品| 亚洲成人在线免费| 欧美国产精品中文字幕| 欧美日韩和欧美的一区二区| 亚洲国产毛片aaaaa无费看| 久久新电视剧免费观看| 欧洲精品一区二区三区在线观看| 亚洲摸摸操操av| 久久综合一区二区| 国产精品一区二区免费不卡 | 欧美专区日韩专区| 国产精品一级片在线观看| 三级不卡在线观看| 亚洲一区欧美一区| 中文字幕中文字幕一区二区| 色94色欧美sute亚洲线路一ni| 亚洲少妇最新在线视频| 久久久一区二区三区捆绑**| 丁香天五香天堂综合| 美日韩一区二区| 欧美国产一区视频在线观看| 欧美一区二区三区在线观看视频| 国产原创一区二区三区| 美脚の诱脚舐め脚责91|