<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        大模型性能摻水嚴重?北大交出答卷:交互評估+動態(tài)出題,死記硬背也沒用 | ACL 2024

        AIGC動態(tài)1年前 (2024)發(fā)布 新智元
        893 0 0

        大模型性能摻水嚴重?北大交出答卷:交互評估+動態(tài)出題,死記硬背也沒用 | ACL 2024

        AIGC動態(tài)歡迎閱讀

        原標題:大模型性能摻水嚴重?北大交出答卷:交互評估+動態(tài)出題,死記硬背也沒用 | ACL 2024
        關鍵字:模型,數(shù)據(jù),方法,知識,高效
        文章來源:新智元
        內(nèi)容字數(shù):0字

        內(nèi)容摘要:


        新智元報道編輯:LRS
        【新智元導讀】當前大語言模型(LLM)的評估方法受到數(shù)據(jù)污染問題的影響,導致評估結(jié)果被高估,無法準確反映模型的真實能力。北京大學等提出的KIEval框架,通過知識基礎的交互式評估,克服了數(shù)據(jù)污染的影響,更全面地評估了模型在知識理解和應用方面的能力。當人工智能領域被GPT-4、Claude 3等大語言模型的驚人表現(xiàn)所震撼時,一個關鍵問題悄然浮現(xiàn):我們是否真的客觀評估了這些模型的能力?事實上,當前大模型的評估正面臨著數(shù)據(jù)污染的陰霾。
        數(shù)據(jù)污染,即模型在訓練過程中接觸到評測基準的測試集數(shù)據(jù),導致其在自動評測基準的表現(xiàn)被高估。這一問題在業(yè)界尚未得到充分重視。許多大模型的訓練數(shù)據(jù)來源復雜,難以完全避免測試數(shù)據(jù)以及答案的泄露。
        一些模型甚至直接在測試集上進行訓練,以獲得更高的評估分數(shù)。這不僅人為地夸大了模型的性能,也可能誤導相關研究的方向。
        面對數(shù)據(jù)污染問題,盡管已有工作提出基于同分布數(shù)據(jù)困惑度平均差值[1]以及模型輸出的log-likelihood分布特征[2]檢測大模型數(shù)據(jù)污染情況的存在性,但這些方法應用場景和實際效果受限,特別是難以檢測大模型在SFT階段的數(shù)據(jù)泄露問


        原文鏈接:大模型性能摻水嚴重?北大交出答卷:交互評估+動態(tài)出題,死記硬背也沒用 | ACL 2024

        聯(lián)系作者

        文章來源:新智元
        作者微信:AI_era
        作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數(shù)字人

        相關文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 久久久久国产精品免费免费搜索| 国产精品午夜免费观看网站| 99精品视频免费观看| 国产亚洲一区二区在线观看 | 四虎影视永久免费观看| 亚洲精品一二三区| 欧美好看的免费电影在线观看 | 国产成人综合亚洲| 国产免费观看黄AV片| 国产青草亚洲香蕉精品久久| 四虎永久在线精品免费影视| 一区二区三区精品高清视频免费在线播放| sss日本免费完整版在线观看| 亚洲一区二区三区国产精品| 久久久WWW免费人成精品| 18禁网站免费无遮挡无码中文| 亚洲电影在线免费观看| 一区二区三区在线免费观看视频 | 成年在线观看网站免费| 亚洲综合亚洲综合网成人| 国产va免费精品| 久久精品国产亚洲AV麻豆不卡| 麻豆一区二区三区蜜桃免费| 亚洲一本大道无码av天堂| 国产午夜精品久久久久免费视| 国产精品公开免费视频| 人成电影网在线观看免费| 亚洲爆乳无码专区| 在线观看无码AV网站永久免费| 国产精品自拍亚洲| 亚洲精品无码久久久影院相关影片| 98精品全国免费观看视频| 亚洲heyzo专区无码综合| 亚洲永久无码3D动漫一区| 69av免费视频| 77777_亚洲午夜久久多人| 在线观看视频免费国语| 亚洲网站视频在线观看| 超pen个人视频国产免费观看| 亚洲国产日韩在线一区| 18pao国产成视频永久免费|