OpenAI o1 和 o3 模型的發布證明了強化學習能夠讓大模型擁有像人一樣的快速迭代試錯、深度思考的高階推理能力,在基于模仿學習的 Scaling Law 逐漸受到質疑的今天,基于探索的強化學習有望帶來新的 Scaling Law.
原標題:僅用 8 張顯卡和一萬塊錢,清華團隊用7B模型打敗GPT-4o數學推理
文章來源:AI前線
內容字數:4107字
清華大合OpenBMB社區提出PRIME算法,低成本高效提升大模型數學推理能力
本文總結了清華大學NLP實驗室聯合上海AI Lab等機構提出的PRIME (Process Reinforcement through IMplicit REwards) 算法及其應用成果。該算法通過結合隱式過程獎勵的強化學習方法,顯著提升了大模型的數學推理能力,并在成本和效率方面取得突破。
1. 模仿學習的局限與強化學習的潛力
傳統的基于模仿學習的大模型訓練方法依賴于高質量的大規模數據,而高質量數據往往稀缺且昂貴。OpenAI的o1和o3模型的成功案例表明,強化學習方法有潛力克服模仿學習的局限,并帶來新的Scaling Law。
2. PRIME算法的核心思想與優勢
PRIME算法的核心在于利用隱式過程獎勵模型 (PRM)。PRM 僅需最終結果的正確與否進行訓練,即可隱式地建模過程獎勵,從而避免了顯式設計獎勵函數的困難。這帶來了三大優勢:
- 過程獎勵: PRM 為每個token提供價值估計,無需額外訓練價值模型。
- 可擴展性: PRM 可在線更新,有效緩解分布偏移和可擴展性問題。
- 簡潔性: PRM 可直接用初始策略模型初始化,易于使用和擴展。
3. Eurus-2-7B-PRIME模型的突出表現
研究人員利用Qwen2.5-Math-7B-Base作為基座模型,采用PRIME算法訓練出Eurus-2-7B-PRIME模型。該模型在AIME 2024(美國IMO選拔考試)上的準確率達到26.7%,大幅超越GPT-4o、Llama-3.1-70B和Qwen2.5-Math-7B-Instruct,且僅使用了Qwen Math數據的1/10。強化學習方法PRIME為模型帶來了16.7%的絕對提升。
4. 低成本高效的訓練過程
值得注意的是,Eurus-2-7B-PRIME模型的訓練僅使用了8張A100顯卡,花費約一萬人民幣,不到10天時間就完成了訓練,展現了PRIME算法的高效性與低成本優勢。
5. 開源項目的影響與未來展望
該項目開源后在海外AI社區引起廣泛關注,GitHub獲得400+ star。未來,基于PRIME方法和更強的基座模型,有潛力訓練出接近OpenAI o1水平的模型。
6. 強化學習的未來發展方向
文章最后指出,強化學習是連接大模型與現實世界的重要橋梁,將對下一代人工智能發展起到重要作用。PRIME算法的成功,為解決大模型強化學習中的獎勵稀疏問題提供了一種新的思路,有望進一步提升大模型的復雜推理能力。
聯系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。