AIGC動態歡迎閱讀
原標題:張俊林詳細拆解o1:OpenAI o1完整訓練過程逆向推演
關鍵字:模型,能力,邏輯推理,狀態,概率
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 分享來源 | 張俊林@知乎新浪微博機器學習團隊 AI Lab 負責人張俊林,對OpenAI o1原理進行了非常干貨的逆向工程圖解。知乎原貼:https://zhuanlan.zhihu.com/p/721952915
OpenAI o1的推出稱為橫空出世不為過,盡管關于Q*、草莓等各種傳聞很久了,用了強化學習增強邏輯推理能力這個大方向大家猜的也八九不離十,但是融合LLM和RL來生成Hidden COT,估計很少人能想到這點,而且目前看效果確實挺好的。
OpenAI奔向Close的路上越走越遠,你要從o1官宣字面來看,除了“強化學習生成Hidden COT”外,基本找不到其它有技術含量的內容。Sora好歹還給出了個粗略的技術框架圖,字里行間也透漏不少隱含的技術點,細心點總能發現很多蛛絲馬跡,串起來之后整個背后的技術就若隱若現(若對此感興趣可看下我之前寫的分析:技術神秘化的去魅:Sora關鍵技術逆向工程圖解。而且,盡管目前有不少公開文獻在用LLM+RL增強大模型的推理能力,但幾乎找不到做Hidden COT生成的工作,所以可供直接參考的內容非常少,這為分析o1進一步增添了難度
原文鏈接:張俊林詳細拆解o1:OpenAI o1完整訓練過程逆向推演
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...