打「推理補丁」之外,實現(xiàn)更強的AI還有哪些不一樣的思路?
機器之心PRO · 會員通訊 Week 49—- 本周為您解讀 ③個值得細品的AI & Robotics業(yè)內(nèi)要事 —-1.在推理階段給大模型「打補丁」之外,實現(xiàn)更強 AI 還有哪些不一樣的思路?o1 離 AGI 還有多遠?在推理階段給大模型「打補丁」之外,實現(xiàn) AGI 還有哪些思路?流式深度 RL 方法有哪些優(yōu)勢?對 Richard Sutton 推崇的持續(xù)學(xué)習(xí)有何影響?蘇格拉底式的學(xué)習(xí)方法可能是實現(xiàn)自我完善 AI 的重要途徑?存在哪些挑戰(zhàn)?…2.皮卡丘的世界模型會比 Meta 先解鎖 AR 元宇宙嗎?元宇宙的熱度被又被世界模型拉回來了?All in 的 Meta 有哪些技術(shù)儲備?World Labs 的大世界模型會更有機會嗎?谷歌DeepMind 新發(fā)的 Genie 2 有多強?用寶可夢Go訓(xùn)練的世界模型會更強嗎?…3. 諾獎得主論壇:AI4S 下一步還要跨過什么坎?諾獎的主都聊了哪些AI4S的話題?Hassabis最喜歡AlphaFold 的哪些用例?GeNome 對材料學(xué)有什么影響?AI4S在應(yīng)用中有哪些「副作用」?……本期完整版通訊含 3 項專題解讀 + 29 項本周 AI & Robotics 賽道要事速遞,其中技術(shù)方面 9項,國內(nèi)方面 8 項,國外方面 12 項。本期通訊總計 23477 字,可免費試讀至 7%消耗99微信豆即可兌換完整本期解讀(約合人民幣9.9元)要事解讀① 打「推理補丁」之外,實現(xiàn)更強的AI還有哪些不一樣的思路?日期:11 月 2 日:o1 模型的推出將研究方向從預(yù)訓(xùn)練帶向了推理層,盡管給大模型「打補丁」的方式取得了一定效果,但無限地通過擴展測試時間計算,就能實現(xiàn)通用人工智能嗎?規(guī)模能擴展到什么程度?計算資源、時間成本問題如何解決?無限的知識和數(shù)據(jù)是否意味著大模型具有真實的泛化能力?強化學(xué)習(xí)之父 Richard Sutton 這樣形容當(dāng)下的業(yè)內(nèi)研究方向,「就像是在路燈下找鑰匙的問題,我丟了鑰匙會在路燈下找,因為那里能看見,盡管那可能不是鑰匙所在的地方。」近期,有兩項新的研究工作跳出了「在路燈下找鑰匙」的視野范圍,指出了實現(xiàn)更強 AI 的兩個可能方向。o1 還不能稱為 AGI:推理計算之外,實現(xiàn) AGI 還有哪些不一樣的思路?1、近期,OpenAI o1 模型的推出將 Scaling Laws 范式從預(yù)訓(xùn)練帶向了推理層。隨后國內(nèi)多家大廠、AI 創(chuàng)企也陸續(xù)發(fā)布了類 o1 推理模型,如 R1-Lite(DeepSeek)、k0-math(月之暗面)、QwQ(阿里)等。AI 業(yè)內(nèi)的關(guān)注點逐漸轉(zhuǎn)向推理層。2、 盡管 o1 等推理模型在復(fù)雜推理等方面的能力顯著提升,但 o1 帶來的范式轉(zhuǎn)變僅是從記住答案到記住正確的推理邏輯,從而輸出正確結(jié)論。「測試時訓(xùn)練」技術(shù)像是一塊「補丁」,通過給大模型一個「臨時記憶」,臨時調(diào)整反應(yīng),讓大模型能夠回答問題。盡管大模型能夠輸出正確的答案,但并不意味著其能真正理解或具有推理能力。3、除了通過語言大模型方向來加強深度學(xué)習(xí)來實現(xiàn) AGI 的主流路線之外,AI 業(yè)內(nèi)的大佬們提出了一些不同的思路,如 Yann Lecun 提出的世界模型路線,Richard Sutton 提出的持續(xù)學(xué)習(xí)等。4、近期,有兩項新的研究工作跳出了「如何更好地讓語言模型在 Pre-training 階段學(xué)習(xí)知識、在 Post-training/Inference 階段提高表現(xiàn)」的視野范圍,指出了實現(xiàn)更強 AI 的兩個可能思路。① 受到 Richard Sutton 的高度評價的阿爾伯塔大學(xué)的一項研究工作,提出了一個新的深度強化學(xué)習(xí)算法「stream-x」,解決了流式深度強化學(xué)習(xí)中的流式障礙問題,為持續(xù)學(xué)習(xí)和終身學(xué)習(xí)提供了支撐;② Google DeepMind 近期的一項工作提出了一種創(chuàng)新性的 AI 遞歸自我完善的新方法,即「蘇格拉底式學(xué)習(xí)」,突破了傳統(tǒng)訓(xùn)練數(shù)據(jù)的局限,是實現(xiàn)自主且自我完善的人工智能的重要途徑。阿爾伯塔的 stream-x 算法:解決「流式障礙」,為實現(xiàn)持續(xù)學(xué)習(xí)提供可能1、阿爾伯塔大學(xué)近期的一項新工作,得到了強化學(xué)習(xí)之父 Richard Sutton 的推薦。該工作提出了一個新的深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)算法「stream-x」,解決了流式深度強化學(xué)習(xí)中的流式障礙問題。[1]① 「stream-x」算法能夠在沒有經(jīng)驗回放(Experience Replay)、目標(biāo)網(wǎng)絡(luò)(Target Networks)或批量更新(Batch Updates)的情況下進行有效的學(xué)習(xí)。② 研究者發(fā)現(xiàn),「stream AC」算法能夠在沒有存儲和重用樣本的情況下,通過實時處理數(shù)據(jù)流,實現(xiàn)與 PPO 算法相近的學(xué)習(xí)效果和任務(wù)性能,甚至在某些復(fù)雜環(huán)境中超越了批量強化學(xué)習(xí)算法的性能。2、相比于目前主流的批量學(xué)習(xí),流式學(xué)習(xí)有很大的發(fā)展空間,適應(yīng)于計算資源受限和需要實時決策的環(huán)境。特別是在 TinyML 領(lǐng)域,流式強化學(xué)習(xí)的優(yōu)勢更大。

粵公網(wǎng)安備 44011502001135號