復雜獎勵函數不是必要的

原標題:1/30訓練步驟復刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開源推理模型RL訓練方法
文章來源:量子位
內容字數:2237字
階躍星辰與清華聯合發布Open Reasoner Zero (ORZ):高效的開源大模型推理訓練方法
近日,國內大模型六小強之一的階躍星辰聯手清華大學,發布了名為Open Reasoner Zero (ORZ) 的全新開源大模型。該項目由沈向洋、姜大昕、張祥雨等AI領域知名學者和專家領銜,其高效的訓練方法和令人矚目的結果,迅速引發了廣泛關注。
1. 高效的訓練方法:突破DeepSeek-R1-Zero的訓練效率
與DeepSeek-R1-Zero相比,ORZ在訓練效率上取得了顯著突破。在響應長度方面,ORZ僅需約17% 的訓練步驟就能達到DeepSeek-R1-Zero 671B 的水平;在RL訓練方法方面,ORZ僅需 1/30 的訓練步驟就能達到相同尺寸DeepSeek-R1-Zero蒸餾Qwen的水平。這主要歸功于ORZ采用的極簡主義訓練方法:結合了帶有GAE (Generalized Advantage Estimation) 的原版PPO算法 (GAE λ=1,折扣因子γ=1) 和基于規則的獎勵函數,無需復雜的獎勵函數設計。
2. “頓悟時刻”的發現:訓練過程中的涌現現象
ORZ團隊在訓練過程中觀察到一個有趣的現象:在訓練步驟約680步時,模型的訓練獎勵值、反思能力和回答長度同時出現顯著提升,類似于DeepSeek-R1-Zero論文中描述的“頓悟時刻”(aha moment)。這種現象也類似于涌現行為,在以Qwen2.5-Base-7B為基礎模型的實驗中,所有基準測試在某個時間點都會經歷獎勵和響應長度的突然增加。
3. 穩定的訓練:無需KL正則化
ORZ在訓練過程中無需依賴任何基于KL散度的正則化技術,便實現了穩定的訓練。這與RLHF和推理模型領域目前的認知有所不同,為進一步擴大強化學習規模提供了新的希望。
4. 數據的重要性:大規模多樣化數據集是關鍵
研究表明,數據數量和多樣性對ORZ的訓練至關重要。在有限的學術數據集上訓練會導致性能快速達到平臺期,而精心策劃的大規模多樣化數據集能夠實現持續擴展,在訓練集和測試集上都沒有飽和的跡象。在整個訓練過程中,平均正確反思長度始終高于平均響應長度。
5. 優異的性能:超越Qwen2.5 Instruct
最終,ORZ模型在MMLU和MMLU_PRO基準測試中,無需任何額外的指令調整即可超越Qwen2.5 Instruct。
6. 完全開源:促進社區協作
ORZ項目已100% 開源,包括訓練數據、訓練代碼、論文和模型,并采用寬松的MIT許可證,開源48小時內已獲得700多個星標。這將極大地促進社區協作和模型的進一步發展。
總之,Open Reasoner Zero 的發布標志著大模型訓練方法的一次重要突破。其高效的訓練方法、令人驚嘆的性能以及完全開源的特性,為大模型研究和應用帶來了新的可能性,也為國內大模型的發展貢獻了重要力量。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

粵公網安備 44011502001135號