Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)
如果只是模仿人類玩家、AI 是無法超越人類的,但純 RL 算法卻能突破人類限制。
原標(biāo)題:Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)
文章來源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):13108字
AI大模型進(jìn)化與強(qiáng)化學(xué)習(xí)的崛起:解讀Andrej Karpathy最新視頻
近日,Andrej Karpathy發(fā)布時(shí)長(zhǎng)3小時(shí)的視頻,深入探討AI大模型的進(jìn)化歷程,特別是強(qiáng)化學(xué)習(xí)(RL)在其中扮演的關(guān)鍵角色。AI科技評(píng)論對(duì)視頻后半部分進(jìn)行了總結(jié),提煉出以下關(guān)鍵觀點(diǎn):
1. 強(qiáng)化學(xué)習(xí)在大模型中仍處于起步階段
視頻指出,當(dāng)前大語言模型的訓(xùn)練過程類似于教育孩子:預(yù)訓(xùn)練和監(jiān)督微調(diào)已較為成熟,但強(qiáng)化學(xué)習(xí)訓(xùn)練仍處于早期階段,尚未成為行業(yè)標(biāo)準(zhǔn)。雖然RL的思路簡(jiǎn)單——試錯(cuò)學(xué)習(xí),但實(shí)際操作中涉及諸多細(xì)節(jié),例如最優(yōu)解選擇、訓(xùn)練量確定、參數(shù)設(shè)置等,都需要精心設(shè)計(jì)。DeepSeek-R1論文的發(fā)布,首次公開討論了RL在大語言模型中的應(yīng)用,并強(qiáng)調(diào)其在提升模型推理能力方面的作用,重新激發(fā)了公眾對(duì)RL訓(xùn)練LLM的興趣。
2. DeepSeek-R1的突出表現(xiàn)
DeepSeek-R1在數(shù)學(xué)問題求解上的表現(xiàn)令人印象深刻。隨著訓(xùn)練迭代次數(shù)增加,其準(zhǔn)確率持續(xù)攀升,并展現(xiàn)出“思維鏈”(CoT)能力——模型通過更長(zhǎng)的響應(yīng)、嘗試多種方法、回溯等步驟來提高準(zhǔn)確性,這與人類解決問題的方式非常相似。雖然OpenAI的模型也運(yùn)用RL技術(shù),但DeepSeek-R1公開展示了完整的推理過程,而OpenAI則出于“蒸餾風(fēng)險(xiǎn)”的考慮,只展示結(jié)果總結(jié)。兩者性能不相上下。
3. 純RL超越人類限制
視頻以AlphaGo為例,說明純RL算法可以超越人類限制。模仿人類玩家的監(jiān)督學(xué)習(xí)模型最終會(huì)遇到瓶頸,而RL則能夠通過自我對(duì)弈,發(fā)現(xiàn)人類從未想到的策略,從而取得更好的結(jié)果。這證明了RL的強(qiáng)大學(xué)習(xí)能力,它不受人類表現(xiàn)的限制,能夠探索出更優(yōu)的解決方案。
4. RLHF的優(yōu)勢(shì)與不足
從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)(RLHF)能夠提升模型性能,尤其在難以驗(yàn)證的領(lǐng)域(如摘要生成、詩(shī)歌創(chuàng)作)中效果顯著。RLHF降低了數(shù)據(jù)標(biāo)注難度,只需對(duì)模型生成的多個(gè)選項(xiàng)進(jìn)行排序,無需進(jìn)行復(fù)雜的創(chuàng)意寫作。但RLHF也存在不足:其基于對(duì)人類判斷的模擬,可能存在誤導(dǎo);強(qiáng)化學(xué)習(xí)容易“”模型,導(dǎo)致錯(cuò)誤決策。
5. LLM的未來發(fā)展趨勢(shì)
未來,LLM將具備更強(qiáng)的多模態(tài)能力,能夠處理文本、音頻和圖像等多種數(shù)據(jù)類型。此外,能夠執(zhí)行長(zhǎng)期任務(wù)的“智能體”將出現(xiàn),人類將成為這些智能體的監(jiān)督者。最后,作者提出了“瑞士奶酪”模型能力框架,提醒人們LLM并非完美無缺,會(huì)在特定情況下出現(xiàn)隨機(jī)失敗,需要謹(jǐn)慎使用。
聯(lián)系作者
文章來源:AI科技評(píng)論
作者微信:
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。