世界模型有望讓物理AI更進一步
原標題:機器人的“ChatGPT時刻”來臨?英偉達帶火世界模型,國內廠商緊跟而上,谷歌也坐不住了!
文章來源:大數據文摘
內容字數:5817字
2025年:具身智能機器人賽道的“ChatGPT時刻”
2025年伊始,具身智能機器人賽道便迅速升溫。英偉達發布的Cosmos世界模型開發平臺,以及智元機器人研究院關于機器人4D世界模型的論文,都預示著“世界模型”成為行業焦點。谷歌也從OpenAI挖角,組建新團隊加速研究模擬物理世界的人工智能模型,種種跡象表明,機器人領域的“ChatGPT時刻”或許即將到來。
1. 英偉達Cosmos:通用的世界基礎模型
英偉達推出的Cosmos旨在幫助開發者構建定制化的世界模型。它是一個通用的世界基礎模型(WFM),能夠利用文本、圖像、視頻和動作等數據生成和模擬虛擬世界,準確模擬場景中物體的空間關系及其物理交互。Cosmos采用“先預訓練再后訓練”的范式,利用大規模數據集進行預訓練,再利用較小規模數據集進行微調,從而更高效地構建物理AI系統。其在2000萬小時的現實世界數據中訓練了9000萬億個token,支持文本到世界或視頻到世界的生成,可用于合成數據增強訓練數據集,并加速AI代理在虛擬世界的強化學習。
2. 智元機器人研究院的EnerVerse架構
智元機器人研究院針對多模態對齊和數據稀缺問題,提出了EnerVerse架構。這是一個自回歸擴散模型,能夠在生成未來具身空間的同時引導機器人完成復雜任務。EnerVerse具有卓越的空間生成能力,在機器人動作規劃任務中達到最優表現,并能生成高質量合成數據,減少對真實世界數據的依賴,實現模擬與現實的無縫過渡。尤其在長距離機器人操作任務方面表現突出。
3. 行業巨頭與初創公司的布局
除了英偉達和智元機器人,其他科技巨頭和初創公司也積極布局世界模型領域。OpenAI投資多家機器人公司,谷歌組建新團隊研究模擬物理世界的人工智能模型。此外,一些新興公司如World Labs也致力于世界模型的研究,相信世界模型未來將廣泛應用于機器人、自動駕駛等領域。
4. 生成式AI的下一個里程碑
基于互聯網數據訓練的生成式模型已改變文本、圖像和視頻內容的創作方式。生成式模型的下一個里程碑是更逼真地模擬現實世界物理特性,對人類、機器人等交互主體的行動做出響應。2025年,隨著世界模型技術的不斷發展,這一里程碑或許將實現。
總而言之,世界模型正在成為具身智能機器人領域的關鍵技術,其發展將極大地推動機器人技術的進步,并為未來智能化社會帶來性的變化。
聯系作者
文章來源:大數據文摘
作者微信:
作者簡介:普及數據思維,傳播數據文化