以RLer視角看DeepSeek訓練中的強化學習
相信屬于RLer的時刻應該會到來的吧!

原標題:以RLer視角看DeepSeek訓練中的強化學習
文章來源:智猩猩GenAI
內(nèi)容字數(shù):5933字
智猩猩AI新青年講座:DeepSeek R1與推理模型專題
本文總結(jié)了知乎文章《DeepScaleR:強化學習讓小模型推理超越o1-preview》,該文由南棲仙策算法副總裁趙鑒博士授權(quán)發(fā)布,探討了強化學習在大模型訓練中的應用,特別是DeepSeek模型的訓練過程。
1. 大模型訓練的問題定義
文章指出,現(xiàn)有文獻很少明確定義大模型訓練的問題。作者嘗試從現(xiàn)有信息中提煉出問題定義:輸入為自監(jiān)督+SFT訓練好的初始模型和人類偏好數(shù)據(jù)(Q,A1,A2),問題庫(Q);輸出為一個新模型。作者進一步簡化,將輸入替換為基于人類偏好數(shù)據(jù)訓練好的獎勵模型和問題庫(Q),輸出為一個模型。這與傳統(tǒng)強化學習問題定義有所不同,后者包含狀態(tài)轉(zhuǎn)移函數(shù),而大模型訓練中狀態(tài)轉(zhuǎn)移函數(shù)不明確。
2. 大模型中的問題建模
文章探討了兩種大模型問題建模方式:第一種將狀態(tài)定義為問題Q,動作定義為生成回答中的下一個token,獎勵為最后一步的獎勵;第二種將狀態(tài)定義為問題Q,動作定義為回答A,獎勵為一步?jīng)Q策的獎勵。作者認為,第二種建模方式更常見,但并非嚴格的強化學習問題,因為它缺少序列決策過程。作者將此類方法類比于早期將強化學習應用于CV或NLP任務(wù)的做法,直接使用不可導的評價指標作為獎勵進行優(yōu)化。
3. DeepSeek訓練中使用的強化學習算法(GRPO)
文章分析了DeepSeek訓練中使用的GRPO算法。作者認為GRPO可以理解為策略梯度算法Reinforce的改進版本,結(jié)合了PPO算法中對公式后半項的改進,但并非一個非常創(chuàng)新的算法。GRPO通過多次采樣,解決了傳統(tǒng)強化學習環(huán)境中單次采樣的限制,并由于大模型環(huán)境的確定性,避免了使用價值網(wǎng)絡(luò)和方差減小策略。
4. 強化學習在大模型中的應用與展望
文章最后探討了強化學習在大模型訓練中的應用現(xiàn)狀,指出目前只有少數(shù)RLer參與核心工作。作者建議,RLer應更多地從問題定義出發(fā),例如將01稀疏獎勵問題建模為類似圍棋的模式,才能更好地發(fā)揮RL算法的優(yōu)勢。同時,推理側(cè)可以結(jié)合MCTS等技術(shù)。文章以游戲AI為例,說明了高階RL算法工程師在實際應用中并非總是必需的。
總而言之,文章深入淺出地分析了強化學習在大模型訓練中的應用,特別是DeepSeek模型的訓練過程,并對強化學習算法工程師未來的發(fā)展方向提出了建議。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

粵公網(wǎng)安備 44011502001135號