o1不是唯一路徑!MIT新研究:在測試時訓練,模型推理能力最高升至5.8倍
AIGC動態(tài)歡迎閱讀
原標題:o1不是唯一路徑!MIT新研究:在測試時訓練,模型推理能力最高升至5.8倍
關(guān)鍵字:測試,模型,任務,樣本,數(shù)據(jù)
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAIo1不是通向大模型推理的唯一路徑!
MIT的新研究發(fā)現(xiàn),在測試時對大模型進行訓練,可以讓推理水平大幅提升。
在挑戰(zhàn)超難的ARC任務時,準確率最高可提升至原來的5.83倍。
這樣的表現(xiàn)不僅優(yōu)于GPT-4和Claude,如果與其他推理方法相結(jié)合,還能超越人類的平均水準。
OpenAI o1團隊成員Noam Brown表示,o1的大規(guī)模計算可能不是最好的方法,很高興看到有學者在提高推理能力上探索新的方法。
在測試中訓練模型不同于傳統(tǒng)的先訓練后測試模式,測試時訓練(Test-Time Training,TTT)在部署階段面對新的測試樣本時,不直接用訓練好的模型去推理。
在推理之前,測試樣本自身攜帶的信息,會通過快速的訓練過程被用于調(diào)整模型參數(shù)。
總體來說,TTT過程中一共有三個關(guān)鍵階段——訓練數(shù)據(jù)生成、模型適應范式設(shè)計以及推理階段的策略。
數(shù)據(jù)生成的核心是將測試任務中蘊含的輸入輸出對關(guān)系,通過數(shù)據(jù)增強的方式最大限度地利用,可具體分為兩個步驟。
首先是基于leave-one-out構(gòu)造新的任務。
對于包含K個輸入輸出對的測試任務,依次將每個樣本
原文鏈接:o1不是唯一路徑!MIT新研究:在測試時訓練,模型推理能力最高升至5.8倍
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: