<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        清華一作1B暴打405B巨無霸,7B逆襲DeepSeek R1!測試時Scaling封神

        AIGC動態5個月前發布 新智元
        274 0 0

        清華一作1B暴打405B巨無霸,7B逆襲DeepSeek R1!測試時Scaling封神

        原標題:清華一作1B暴打405B巨無霸,7B逆襲DeepSeek R1!測試時Scaling封神
        文章來源:新智元
        內容字數:9177字

        1B模型完勝405B?測試時擴展(TTS)帶來LLM推理能力

        近日,一篇來自清華、哈工大、北郵等機構的聯合論文在AI領域引發轟動。研究人員通過巧妙應用計算最優的測試時擴展(TTS)策略,實現了小模型“以小勝大”的突破性進展。該研究重新定義了測試時計算,并揭示了其在提升大語言模型(LLM)推理能力方面的巨大潛力。

        1. 計算最優TTS策略:獎勵感知是關鍵

        之前的研究表明,測試時擴展可以通過在推理時分配額外算力來增強LLM的推理能力。但如何最優地分配這些計算資源?研究人員發現,計算最優的TTS策略應當是獎勵感知的。他們將獎勵函數整合到策略中,使計算最優擴展能夠適應策略模型、提示詞和獎勵函數,從而提供更普適的框架。

        2. 絕對問題難度標準勝過分位數

        研究發現,使用基于Pass@1準確率的分位數來衡量問題難度并不有效。不同策略模型的推理能力差異導致了這一問題。因此,研究人員選擇使用基于Pass@1準確率的絕對閾值來定義問題難度等級:簡單、中等和困難。

        3. PRM選擇與TTS策略的最佳組合

        實驗結果表明,PRM(過程獎勵模型)的選擇對TTS的效果至關重要,最佳TTS策略會隨著使用的PRM而變化。PRM在不同策略模型和任務間的泛化能力是一個挑戰,尤其是在更復雜的任務上。研究發現,PRM的過程監督能力越強,其在TTS中通常能帶來更好的性能。最佳TTS方法(BoN或基于搜索的方法)也取決于策略模型的大小。

        4. 小模型的逆襲:1B模型超越405B

        研究人員通過實驗驗證了小模型在計算最優TTS策略下的巨大潛力。0.5B模型在數學任務上超越了GPT-4o;3B模型超越了405B模型;7B模型甚至勝過了o1和DeepSeek R1。這表明,小模型通過計算最優TTS策略,可以顯著提升推理性能,甚至超越大型模型。

        5. 計算最優TTS與其他方法的比較

        與CoT(思維鏈)和多數投票等方法相比,計算最優TTS的效率更高,推理性能也得到顯著提升。然而,隨著策略模型參數數量的增加,TTS的改進效果逐漸減小。這表明TTS的有效性與策略模型的推理能力密切相關。

        6. TTS與基于長CoT方法的對比

        研究表明,TTS比直接在MCTS生成數據上應用RL或SFT的方法更有效,但在更復雜的任務上效果不如從強大的推理模型中進行蒸餾的方法。

        7. 結論

        這項研究證明了計算最優TTS策略在增強LLM推理能力方面的巨大潛力。它為提升小模型性能,以及更有效地利用計算資源提供了新的思路,也為未來的LLM研究提供了重要的參考價值。


        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲国产精品成人精品无码区| 99爱免费观看视频在线| 成年人免费视频观看| 亚洲妇女水蜜桃av网网站| 久久久久久精品成人免费图片| 78成人精品电影在线播放日韩精品电影一区亚洲 | 亚洲国产精品成人久久| 日本免费在线观看| 久久久久久亚洲精品| 久久久久久国产精品免费无码 | 一本无码人妻在中文字幕免费| 亚洲国产精品美女| 欧美三级在线电影免费| 亚洲一区二区三区成人网站| 日本无吗免费一二区| 国产大陆亚洲精品国产| 亚洲精品黄色视频在线观看免费资源| 深夜福利在线免费观看| 久99精品视频在线观看婷亚洲片国产一区一级在线 | 免费观看美女用震蛋喷水的视频| 亚洲国产午夜精品理论片 | 免费一区二区无码视频在线播放| 亚洲国产成人精品无码久久久久久综合| 免费毛片毛片网址| 亚洲色无码专区在线观看| 亚洲国产精品免费视频| 亚洲欧洲日韩极速播放| 亚洲av区一区二区三| 七色永久性tv网站免费看| 亚洲中文字幕在线无码一区二区 | 亚洲色偷拍另类无码专区| 免费精品无码AV片在线观看| 亚洲娇小性xxxx色| 亚洲精品无码专区2| 日韩午夜理论免费TV影院| 亚洲影院天堂中文av色| 在线精品亚洲一区二区三区| 最近免费字幕中文大全视频| 亚洲avav天堂av在线网毛片| 亚洲日本va在线视频观看| 嘿嘿嘿视频免费网站在线观看 |