<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Gemini Pro還不如GPT-3.5,CMU深入對比研究:保證公平透明可重復

        AIGC動態2年前 (2023)發布 量子位
        294 0 0

        Gemini Pro還不如GPT-3.5,CMU深入對比研究:保證公平透明可重復

        AIGC動態歡迎閱讀

        原標題:Gemini Pro還不如GPT-3.5,CMU深入對比研究:保證公平透明可重復
        關鍵字:問題,任務,模型,團隊,提示
        文章來源:量子位
        內容字數:3629字

        內容摘要:


        夢晨 發自 凹非寺量子位 | 公眾號 QbitAI谷歌Gemini實力到底如何?梅隆大學來了場專業客觀第三方比較。
        為保證公平,所有模型使用相同的提示和生成參數,并且提供可重復的代碼和完全透明的結果。
        不會像谷歌官方發布會那樣,用CoT@32對比5-shot了。
        一句話結果:Gemini Pro版本接近但略遜于GPT-3.5 Turbo,GPT-4還是遙遙領先。
        在深入分析中還發現Gemini一些奇怪特性,比如選擇題喜歡選D……
        不少研究者表示,太卷了,Gemini剛發布沒幾天就搞出這么詳細的測試。
        六大任務深入測試這項測試具體比較了6大任務,分別選用相應的數據集:
        知識問答:MMLU
        推理:BIG-Bench Hard
        數學:GSM8k、SVAMP、ASDIV、MAWPS
        代碼:HumanEval、ODEX
        翻譯:FLORES
        上網沖浪:WebArena
        知識問答:喜歡選D從結果可以看出,使用思維鏈提示在這類任務上不一定能帶來提升。
        MMLU數據集里都是多選題,對結果進一步分析還發現奇怪現象:Gemini更喜歡選D。
        GPT系列在4個選項上的分布就要平衡很多,團隊提出這可能是G


        原文鏈接:Gemini Pro還不如GPT-3.5,CMU深入對比研究:保證公平透明可重復

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲午夜无码毛片av久久京东热| 成年大片免费视频播放一级| 男人天堂2018亚洲男人天堂| 国产亚洲综合视频| 叮咚影视在线观看免费完整版| 日韩免费精品视频| 国产午夜亚洲精品理论片不卡| 亚洲国产日韩在线成人蜜芽| 黄页网址大全免费观看12网站| 亚洲成人免费在线观看| 国产精品亚洲产品一区二区三区 | 最新亚洲人成无码网www电影| 国产免费阿v精品视频网址| 亚洲狠狠婷婷综合久久久久| 国产成人亚洲午夜电影| 五月天婷亚洲天综合网精品偷| 亚洲av无码一区二区三区观看| 免费无码又爽又刺激网站直播| 国产亚洲婷婷香蕉久久精品| 97青青草原国产免费观看| 日韩亚洲变态另类中文| 色婷婷六月亚洲综合香蕉| a毛片基地免费全部视频| 久久亚洲成a人片| 中文字幕高清免费不卡视频| 国产男女性潮高清免费网站| 亚洲人成图片网站| 大胆亚洲人体视频| 国产免费网站看v片在线| 亚洲人成免费电影| 一区国严二区亚洲三区| 国产午夜精品理论片免费观看| 亚洲精品第一国产综合精品| 免费人妻无码不卡中文字幕系| 在线精品亚洲一区二区| 亚洲中文字幕无码专区| 亚洲第一网站免费视频| 国产青草亚洲香蕉精品久久| 亚洲2022国产成人精品无码区| 成人啪精品视频免费网站| 亚洲日韩久久综合中文字幕|