16張H100訓26分鐘,超越o1-preview!李飛飛等用1K樣本,揭秘測試時Scaling

原標題:16張H100訓26分鐘,超越o1-preview!李飛飛等用1K樣本,揭秘測試時Scaling
文章來源:新智元
內(nèi)容字數(shù):6813字
大模型推理新突破:1000個樣本即可超越閉源模型
近年來,大模型推理能力的提升備受關注,然而普遍認為這需要依賴海量數(shù)據(jù)和強大的算力。斯坦福大學、華盛頓大學等機構的研究人員近期發(fā)表的論文“s1: Simple test-time scaling”則提出了一種顛覆性方法,僅需1000個樣本就能訓練出具有強大推理能力的模型,其性能甚至超越了OpenAI的閉源模型o1-preview。
高效的樣本利用:s1K數(shù)據(jù)集與監(jiān)督微調(diào)
研究人員創(chuàng)建了一個名為s1K的數(shù)據(jù)集,包含1000個精心篩選的問題,涵蓋了多個領域和推理任務,每個問題都配有推理軌跡和答案。他們利用這個數(shù)據(jù)集,僅用16張H100 GPU訓練了26分鐘,就完成了對預訓練模型的監(jiān)督微調(diào)(SFT),構建了s1-32B模型。這極大地提高了樣本效率。
突破性技術:預算(Budget Forcing)
論文的核心在于一種名為“預算”的技術。該技術通過控制模型在測試時的計算量來提升推理性能。具體來說,它通過限制模型生成的推理token數(shù)量來控制推理的深度。如果生成的token超過上限,則結(jié)束推理;如果希望模型進行更深入的推理,則可以添加“Wait” token,鼓勵模型繼續(xù)思考。這種方法可以引導模型進行自我檢查,并修正推理過程中的錯誤。
測試時擴展:性能隨計算量提升
s1-32B模型展現(xiàn)了顯著的測試時擴展能力,即其性能會隨著測試計算量的增加而提升。通過增加“Wait” token的數(shù)量,模型在多個基準測試上的表現(xiàn)都有所提高,這與OpenAI閉源模型的測試時擴展行為相符,但該研究僅使用1000個樣本就實現(xiàn)了這一突破。
超越閉源模型:樣本效率的極致
s1-32B模型在多個基準測試中超越了OpenAI的o1-preview等閉源模型,展現(xiàn)了其強大的推理能力。值得注意的是,DeepSeek r1-32B模型雖然性能更強,但其使用了800倍的訓練樣本。這充分證明了s1-32B模型在樣本效率方面的優(yōu)勢。
消融實驗:數(shù)據(jù)選擇標準的重要性
研究人員進行了大量的消融實驗,驗證了s1K數(shù)據(jù)集在質(zhì)量、難度和多樣性三個方面的選擇標準的重要性。結(jié)果表明,這三個因素的結(jié)合是實現(xiàn)樣本高效推理訓練的關鍵。
未來方向:改進預算和探索并行擴展
論文最后展望了未來的研究方向,包括改進預算技術,例如輪換使用不同的字符串或結(jié)合頻率懲罰;將預算應用于強化學習訓練的模型;探索新的測試時擴展方法,例如結(jié)合并行擴展方法,以進一步提升模型性能。
總而言之,該研究提出了一種簡單有效的方法,利用少量樣本和預算技術,實現(xiàn)了強大的模型推理能力,為大模型訓練和應用提供了新的思路和方向。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

粵公網(wǎng)安備 44011502001135號