走向技術(shù)“暗面”。
原標(biāo)題:在可以 RL 的地方,將迎來更多「李世石時(shí)刻」
文章來源:特工宇宙
內(nèi)容字?jǐn)?shù):3892字
強(qiáng)化學(xué)習(xí)引領(lǐng)LLM新紀(jì)元:Kimi k1.5的突破與AGI的曙光
人工智能領(lǐng)域正經(jīng)歷著前所未有的快速發(fā)展,大型語言模型(LLM)的進(jìn)步尤為引人注目。而強(qiáng)化學(xué)習(xí)(RL),作為訓(xùn)練LLM的關(guān)鍵方法,正扮演著越來越重要的角色。本文將深入探討國(guó)內(nèi)團(tuán)隊(duì)Kimi在RL-LLM方向取得的突破性進(jìn)展,以及其對(duì)AGI發(fā)展帶來的啟示。
Kimi k1.5:簡(jiǎn)潔高效的RL框架
受到AlphaGo等AI里程碑式成就的啟發(fā),Kimi團(tuán)隊(duì)另辟蹊徑,采用了一種簡(jiǎn)單而有效的RL框架和訓(xùn)練方式,成功打造出多模態(tài)能力達(dá)到o1水平的Kimi k1.5模型。不同于復(fù)雜的蒙特卡洛樹搜索(MCTS)和過程獎(jiǎng)勵(lì)模型(PRM),Kimi巧妙地利用提示工程構(gòu)建CoT軌跡,進(jìn)行輕量級(jí)的SFT預(yù)熱,并通過創(chuàng)新的Partial rollouts技術(shù)提升訓(xùn)練效率,實(shí)現(xiàn)模型在訓(xùn)練過程中復(fù)用之前的軌跡片段,從而節(jié)省大量計(jì)算資源。
超越SOTA:短鏈和長(zhǎng)鏈思維的雙重突破
Kimi k1.5在短鏈?zhǔn)剿季S(short-CoT)模式下,顯著超越了GPT-4o和Claude 3.5 Sonnet等全球領(lǐng)先的短思考模型,在數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力方面展現(xiàn)出強(qiáng)大的優(yōu)勢(shì)。更令人驚嘆的是,在長(zhǎng)鏈?zhǔn)剿季S(long-CoT)模式下,k1.5的表現(xiàn)已達(dá)到OpenAI o1正式版的水平。這標(biāo)志著在短鏈和長(zhǎng)鏈思維兩個(gè)方向上,Kimi都取得了突破性的進(jìn)展。
長(zhǎng)鏈?zhǔn)剿季S的涌現(xiàn):解決數(shù)據(jù)難題
Kimi團(tuán)隊(duì)的另一個(gè)重要發(fā)現(xiàn)是,模型在RL訓(xùn)練過程中,性能提升的同時(shí),token數(shù)量也會(huì)自然增加,這意味著長(zhǎng)鏈?zhǔn)剿季S(CoT)可以在RL訓(xùn)練過程中涌現(xiàn)出來。這解決了困擾業(yè)界已久的難題:如何獲取大量的長(zhǎng)鏈?zhǔn)剿季S數(shù)據(jù)。Kimi和DeepSeek團(tuán)隊(duì)在同日發(fā)布的技術(shù)報(bào)告,相互驗(yàn)證了這一結(jié)論,標(biāo)志著在長(zhǎng)鏈?zhǔn)剿季S數(shù)據(jù)獲取問題上取得了里程碑式的進(jìn)展。
大道至簡(jiǎn):賦能模型自主探索
Kimi的成功并非依賴于復(fù)雜的算法,而是秉持著“大道至簡(jiǎn)”的理念。通過賦予模型一個(gè)可衡量的目標(biāo),并允許其自主探索和犯錯(cuò),Kimi讓模型能夠像人一樣地思考,從而展現(xiàn)出強(qiáng)大的學(xué)習(xí)和解決問題的能力。這為未來的LLM發(fā)展提供了新的思路。
k1.5的額外亮點(diǎn):long2short技術(shù)和混合部署框架
除了核心RL框架,Kimi k1.5還包含了long2short技術(shù)和訓(xùn)練推理混合部署框架。long2short技術(shù)通過模型合并和DPO等技術(shù),將長(zhǎng)鏈?zhǔn)剿季S模型中學(xué)習(xí)到的思維先驗(yàn)轉(zhuǎn)移到短鏈?zhǔn)剿季S模型中,提升模型效率。而混合部署框架則能高效共享和管理資源,提升訓(xùn)練推理性能。
AGI的曙光:持續(xù)迭代與未來展望
Kimi k1.5是Kimi團(tuán)隊(duì)連續(xù)第三個(gè)月發(fā)布的k系列強(qiáng)化學(xué)習(xí)模型升級(jí)版本,展現(xiàn)了其在AGI探索道路上的持續(xù)努力。這一突破性進(jìn)展不僅推動(dòng)了LLM技術(shù)的快速發(fā)展,也為AGI的實(shí)現(xiàn)帶來了新的希望。我們有理由相信,隨著技術(shù)的不斷迭代,AI將在更多領(lǐng)域超越人類,為人類社會(huì)帶來福祉。
正如文中所言,我們正步入一個(gè)新的時(shí)代,需要新的范式。一小群對(duì)技術(shù)充滿熱情的年輕人,正在用他們的努力,改變著世界,推動(dòng)著人工智能技術(shù)不斷進(jìn)步,最終造福人類。
聯(lián)系作者
文章來源:特工宇宙
作者微信:
作者簡(jiǎn)介:Agent Universe,專注于智能體的AI科技媒體。