<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Kimi技術大牛復盤:k1.5復現o1的思考過程

        AIGC動態8個月前發布 智猩猩GenAI
        432 0 0

        這里想和大家分享一下o1復現的一些關鍵思考過程。

        Kimi技術大牛復盤:k1.5復現o1的思考過程

        原標題:Kimi技術大牛復盤:k1.5復現o1的思考過程
        文章來源:智猩猩GenAI
        內容字數:7066字

        Flood Sung:o1復現的關鍵思考過程

        本文是Flood Sung對o1復現過程的思考總結,分享了其Long Chain of Thoughts (Long CoT) 的關鍵步驟和思考。文章的核心在于如何訓練模型像人一樣思考,最終實現AGI。

        1. Long CoT 的有效性與反思

        o1發布后效果震撼,其Long CoT的有效性引發了作者的反思。作者回憶起一年多前Tim @周昕宇的實驗,使用小型模型訓練幾十位加減乘除運算,并將其合成Long CoT數據進行SFT,取得了顯著效果。這驗證了Long Context的重要性,但當時由于成本和速度的考量,Long CoT并未被優先考慮。

        2. 訓練模型思考的關鍵

        為了理解o1的工作機制,作者分析了o1官網的例子,發現其可以犯錯,并通過反思和嘗試改進。o1的思考方式靈活多樣,包括重述問題、聯想和分治等。Noam Brown和Hyung Won Chung的OpenAI視頻為作者提供了重要啟示:Noam Brown強調了Test-Time Search的重要性,指出模型需要自行搜索;Hyung Won Chung強調“Don’t Teach,Incentivize”,指出人為添加結構化inductive bias會限制模型能力,Agentic Workflow只有短期價值。作者由此得出結論:需要訓練模型像人一樣思考。

        3. 基于精確Reward的RL訓練

        Noam Brown的PPT強調了進行精確Reward的RL訓練的重要性,避免Reward Model的限制。作者指出,RL的性能完全取決于Reward,而以往的RLHF由于Human Preference難以精準建模,容易出現Reward hacking。因此,作者選擇使用具有標準答案的數學和代碼題作為訓練數據。

        作者分析了o1的訓練過程,認為其實際上是“In Context RL with Self-Critique”,將完整的trajectory作為message輸入模型。模型在Long CoT下進行next token prediction,學習解決問題,其輸出軌跡包含一系列action和reward。由于模型自我反思,難以精確估計每個step的value,作者最終選擇將問題建模為Contextual Bandit問題,使用REINFORCE的變種進行訓練。訓練過程中,模型的token數會隨著性能提升而增加,這是RL訓練過程中模型涌現的能力。

        4. AGI近在眼前

        作者總結了整個思考過程,認為通過RL訓練LLM進行Long CoT解題,并通過Contextual Bandit解決value估計難題,最終實現了o1的復現。作者相信AGI近在眼前,未來的發展方向是將這種方法應用到更復雜的場景中,例如模擬駕駛、內容創作和應用開發等。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲色图在线观看| 亚洲AV无码乱码在线观看裸奔| 男女午夜24式免费视频| 国产精成人品日日拍夜夜免费| 亚洲一区日韩高清中文字幕亚洲| 日韩欧美亚洲国产精品字幕久久久| 国产免费区在线观看十分钟| 亚洲成人国产精品| 人人公开免费超级碰碰碰视频 | 亚洲国产a级视频| 色多多A级毛片免费看| 亚洲XX00视频| 国产一级婬片A视频免费观看| 亚洲乱色熟女一区二区三区丝袜| 亚洲AV无码成人精品区大在线| 国产精品亚洲专区无码不卡| 国产成人福利免费视频| 国产精品V亚洲精品V日韩精品| 亚洲免费视频一区二区三区| 韩国日本好看电影免费看| 国产成人亚洲综合无码精品 | 日韩精品视频免费网址| 亚洲视频国产视频| 无码免费又爽又高潮喷水的视频| 亚洲AV成人潮喷综合网| 亚洲一区二区三区在线| 免费无码又爽又刺激聊天APP| 亚洲av无码专区在线观看下载| 亚洲成av人片在线观看天堂无码| 精品一区二区三区免费视频| 亚洲综合一区二区国产精品| 韩国免费一级成人毛片| 久久精品国产亚洲AV| 四虎永久在线精品免费网址| 国产尤物在线视精品在亚洲| 亚洲色WWW成人永久网址| 99精品视频在线观看免费专区| 国产精品亚洲w码日韩中文| 男人j进入女人j内部免费网站| 亚洲av成人一区二区三区| 亚洲av午夜精品一区二区三区|