<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        兩句話,讓LLM邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷

        AIGC動態1年前 (2024)發布 新智元
        371 0 0

        兩句話,讓LLM邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷

        AIGC動態歡迎閱讀

        原標題:兩句話,讓LLM邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷
        關鍵字:模型,能力,問題,答案,測試
        文章來源:新智元
        內容字數:0字

        內容摘要:


        新智元報道編輯:喬楊 好困
        【新智元導讀】在基準測試上頻頻屠榜的大模型們,竟然被一道簡單的邏輯推理題打得全軍覆沒?最近,研究機構LAION的幾位作者共同發表了一篇文章,以「愛麗絲夢游仙境」為啟發涉及了一系列簡單的推理問題,揭示了LLM基準測試的盲區。一道簡單的邏輯問題,竟讓幾乎所有的LLM全軍覆沒?
        對于人類來說,這個名為「愛麗絲夢游仙境」(AIW)的測試并不算很難——
        「愛麗絲有N個兄弟,她還有M個姐妹。愛麗絲的兄弟有多少個姐妹?」
        只需稍加思考,答案顯而易見:M+1。(愛麗絲擁有的姐妹數量,再加上愛麗絲自己)
        但是,當研究人員讓GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答時,得到的結果卻非常離譜。只有OpenAI最新的GPT-4o勉強及格。
        而且問題不僅僅是基本的不準確性:當要求展示其工作過程時,AI會詳細說明一些荒謬且錯誤的「思考」過程,這些過程毫無意義——更奇怪的是,當被告知其工作不準確時,模型反復變得憤怒并堅持其錯誤答案。
        正如這支來自知名開源AI研究機構LAION的團隊所揭示的——即使是當今最先進的模型,也幾乎不具有小學生的推理能力


        原文鏈接:兩句話,讓LLM邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷

        聯系作者

        文章來源:新智元
        作者微信:AI_era
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 曰批全过程免费视频网址 | 免费人成视频在线观看不卡| 成人毛片免费观看视频大全| 最近最好的中文字幕2019免费| 亚洲精品视频在线观看免费| 国产精品无码亚洲一区二区三区| 美女扒开尿口给男人爽免费视频| 男女一边桶一边摸一边脱视频免费 | 不卡一卡二卡三亚洲| 内射少妇36P亚洲区| 亚洲AV无码一区二区大桥未久| h视频在线免费观看| 日本成年免费网站| 国产女高清在线看免费观看| 久久精品国产亚洲AV电影| 在线观看免费视频资源| 亚洲国产精品午夜电影| 久久免费国产精品一区二区| 大学生高清一级毛片免费| 亚洲欧洲日产国码无码久久99| 国产精品亚洲专区在线观看| 好吊色永久免费视频大全| 亚洲精品乱码久久久久久蜜桃不卡 | 成年女人永久免费观看片| 亚洲永久中文字幕在线| 毛片免费全部播放一级| 免费手机在线看片| 毛片网站免费在线观看| 亚洲精品国产第1页| 免费高清资源黄网站在线观看| 亚洲精品综合久久中文字幕| 国产成人免费高清激情视频| 黄网站色成年片大免费高清| 亚洲国产美女精品久久久久∴| 99热在线免费播放| 亚洲日韩中文无码久久| 99视频有精品视频免费观看| 亚洲中文字幕无码爆乳app| 182tv免费观看在线视频| 亚洲日本乱码卡2卡3卡新区| 中国xxxxx高清免费看视频|