<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        “大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

        AIGC動態1年前 (2024)發布 量子位
        315 0 0

        “大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

        AIGC動態歡迎閱讀

        原標題:“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠
        關鍵字:模型,騰訊,星星,測試,研究人員
        文章來源:量子位
        內容字數:4579字

        內容摘要:


        克雷西 發自 凹非寺量子位 | 公眾號 QbitAI大模型長文本能力測試,又有新方法了!
        騰訊MLPD實驗室,用全新開源的“數星星”方法替代了傳統的“大海撈針”測試。
        相比之下,新方法更注重對模型處理長依賴關系能力的考察,對模型的評估更加全面精準。
        利用這種方法,研究人員對GPT-4和國內知名的Kimi Chat進行了“數星星”測試。
        結果,在不同的實驗條件下,兩款模型各有勝負,但都體現出了很強的長文本能力。
        △橫軸系以2為底的對數坐標那么,“數星星”究竟是怎樣的一種測試呢?
        比“大海撈針”更加精準首先,研究人員選擇了一段長文本做為上下文,測試過程中長度逐漸遞增,最大為128k。
        然后,根據不同的測試難度需求,整段文本會被劃分成N段,并向其中插入M個包含“星星”的句子。
        實驗過程中,研究人員選擇了《紅樓夢》作為上下文文本,向其中加入了“小企鵝數了x顆星星”這樣的句子,每個句子中的x都各不相同。
        然后,模型會被要求找到所有這樣的句子,并以JSON格式輸出其中所有的數字,且只輸出數字。
        得到模型的輸出之后,研究人員會將這些數字和Ground Truth進行對比,最終計算出模型輸出的正確率。


        原文鏈接:“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 一级女人18片毛片免费视频 | 九九综合VA免费看| 免费看片A级毛片免费看| 亚洲神级电影国语版| 一级毛片免费不卡在线| 国产精品美女午夜爽爽爽免费| 亚洲国产精品无码久久SM| 在线观看亚洲人成网站| 亚洲成a人片在线不卡一二三区| 麻豆最新国产剧情AV原创免费 | 日韩在线永久免费播放| 综合自拍亚洲综合图不卡区| 97青青草原国产免费观看| 亚洲综合久久成人69| 国拍在线精品视频免费观看| 久久亚洲国产成人影院| 国产免费无遮挡精品视频| 无码精品人妻一区二区三区免费| 国产亚洲色视频在线| 成人区精品一区二区不卡亚洲| 无码高潮少妇毛多水多水免费| 性色av极品无码专区亚洲| 亚洲国产黄在线观看| 国产午夜精品免费一区二区三区 | 亚洲成a人片在线观看无码 | 亚洲真人无码永久在线 | 四虎成人免费影院网址| 免费人人潮人人爽一区二区| 亚洲AV无码成人网站久久精品大| 人妻无码中文字幕免费视频蜜桃| 亚洲日韩av无码| 99精品国产免费久久久久久下载 | 国产国产人免费视频成69堂| 亚洲丁香婷婷综合久久| 亚洲日本乱码在线观看| 黄页网站免费观看| 一区二区视频免费观看| 亚洲成a人片7777| 亚洲午夜无码片在线观看影院猛| 99re视频精品全部免费| 高潮内射免费看片|