AIGC動態歡迎閱讀
原標題:OpenAI o1 技術初探2:使用MCTS增強推理能力(基于代碼實踐的解讀)
關鍵字:結點,答案,報告,問題,模型
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
在o1的整體框架篇中(https://zhuanlan.zhihu.com/p/773907223),我們從現有開源的論文和代碼中(https://github.com/hijkzzz/Awesome-LLM-Strawberry),抽象出了o1可能的技術實現路徑,如下圖:這里對于這張框架圖我們不再做贅述,詳情可以參見上面《框架篇》的文章鏈接。
我們之前說過,這是一張高度抽象的框架圖,旨在說明o1官方技術報告中提到的“把更多算力花在inference階段上,以提升模型的邏輯推理能力”的含義。而從本文開始,我們將以具體的算法去擴展這張框架圖的細節。
今天我們要具體擴展的,就是框架圖中的Inference部分(黃色塊),從框架圖可知,Inference部分一般有兩個作用:
作用1:直接對inference過程進行優化,具體的優化方法例如:
PRM + some search methods。其中PRM表示我們額外訓練的、用于評估“模型中間步驟”而不是“模型答案結果”的獎勵模型。我們在框架篇中給過使用這種優化方法的具體例子,這里不再贅述
MCTS(Monte Carlo Tree Searc
原文鏈接:OpenAI o1 技術初探2:使用MCTS增強推理能力(基于代碼實踐的解讀)
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...