AIGC動態歡迎閱讀
原標題:過程獎勵模型PRM成版本答案!谷歌DeepMind全自動標注逐步驟獎勵PAV,準確率提升8%
關鍵字:策略,政策,過程,優勢,步驟
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】通過過程獎勵模型(PRM)在每一步提供反饋,并使用過程優勢驗證器(PAV)來預測進展,從而優化基礎策略,該方法在測試時搜索和在線強化學習中顯示出比傳統方法更高的準確性和計算效率,顯著提升了解決復雜問題的能力。在提升大型語言模型(LLM)在數學推理方面的能力時,一個常用的方法是訓練一個獎勵模型(reward model)或驗證器(verifier),也可以利用強化學習在測試階段(test-time)對所有解決方案進行重排序。
通常情況下,驗證器的預測是整個推理過程的結果,即結果獎勵模型(ORM,outcome reward models),但這種獎勵信號過于稀疏,模型難以從中學習,并且搜索過程的效率也不高;理論上,通過細粒度的監督數據可以緩解這一問題。
在推理方面,先前有研究已經訓練了過程獎勵模型(PRMs,process reward models),在搜索的每一步或在強化學習期間分配中間獎勵,不過PRM數據都來源于人工標注,不具備可擴展性。
雖然也有研究者訓練PRMs來預測自動生成的標注,類似于強化學習中的價值函數,但到目前為止,自動化的PRM
原文鏈接:過程獎勵模型PRM成版本答案!谷歌DeepMind全自動標注逐步驟獎勵PAV,準確率提升8%
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...