Sergey Levine :機(jī)器人基礎(chǔ)模型將取代其他通用基礎(chǔ)模型丨DAI 2024
33億參數(shù)的VLA模型在大多數(shù)任務(wù)上可達(dá) 50%-100% 成功率。
原標(biāo)題:Sergey Levine :機(jī)器人基礎(chǔ)模型將取代其他通用基礎(chǔ)模型丨DAI 2024
文章來源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):25392字
具身智能大模型:通用性優(yōu)勢與未來發(fā)展
本文總結(jié)了UC Berkeley Sergey Levine教授在第六屆國際分布式人工智能會(huì)議(DAI 2024)上關(guān)于通用機(jī)器人基礎(chǔ)模型的演講要點(diǎn),探討了具身智能大模型的通用性優(yōu)勢及其未來發(fā)展方向。
1. 通用機(jī)器人基礎(chǔ)模型的性
Levine教授指出,過去人工智能領(lǐng)域采用的是針對(duì)特定任務(wù)訓(xùn)練專用模型的方法。而如今,通用模型的興起,特別是大型語言模型(LLM)的成功,啟示了在機(jī)器人領(lǐng)域采用類似的通用性思路。通過收集大量不同機(jī)器人執(zhí)行各種任務(wù)的數(shù)據(jù),訓(xùn)練一個(gè)通用機(jī)器人基礎(chǔ)模型,可以顯著提高模型的泛化能力和效率。這將克服目前機(jī)器人領(lǐng)域數(shù)據(jù)不足的難題,并隨著機(jī)器人實(shí)際部署而不斷提升模型性能。
2. 基于擴(kuò)散的π0通用機(jī)器人模型
Levine教授介紹了其團(tuán)隊(duì)開發(fā)的π0模型,這是一個(gè)集成視覺-語言-動(dòng)作(VLA)的33億參數(shù)通用機(jī)器人基礎(chǔ)模型。該模型通過預(yù)訓(xùn)練(10,000小時(shí)數(shù)據(jù),7種機(jī)器人,68種任務(wù))和任務(wù)微調(diào)兩個(gè)階段進(jìn)行訓(xùn)練,在大多數(shù)任務(wù)上實(shí)現(xiàn)了50%-100%的成功率。π0模型采用了一種更適應(yīng)機(jī)器人控制的架構(gòu),結(jié)合了擴(kuò)散模型來輸出高頻連續(xù)動(dòng)作,并能處理不同形態(tài)的機(jī)器人。在復(fù)雜任務(wù)(如疊衣服、組裝盒子)中,高質(zhì)量的后期訓(xùn)練數(shù)據(jù)至關(guān)重要,可以進(jìn)一步提升模型性能。
3. 推理與強(qiáng)化學(xué)習(xí)的結(jié)合
演講中還介紹了通過多步推理提升VLA模型泛化能力的研究。通過引入中間推理步驟,模型能夠更好地理解任務(wù)要求,提高成功率。實(shí)驗(yàn)結(jié)果顯示,在具有挑戰(zhàn)性的泛化任務(wù)中,這種方法使OpenVLA的絕對(duì)成功率提高了28%。此外,利用強(qiáng)化學(xué)習(xí)(RL)進(jìn)行微調(diào),可以獲得更魯棒、更快速的任務(wù)執(zhí)行策略。RLDG方法通過使用強(qiáng)化學(xué)習(xí)生成的高質(zhì)量訓(xùn)練數(shù)據(jù)來微調(diào)機(jī)器人通用基礎(chǔ)模型,相比傳統(tǒng)的人類示范數(shù)據(jù)訓(xùn)練方法可以獲得更好的性能和泛化能力。
4. 自主學(xué)習(xí)與未來展望
最后,Levine教授介紹了SOAR項(xiàng)目,該項(xiàng)目旨在通過自主學(xué)習(xí),在沒有人類監(jiān)督的情況下提升機(jī)器人基礎(chǔ)模型。通過視覺語言模型生成任務(wù),并利用生成的圖像數(shù)據(jù)進(jìn)行模型微調(diào),實(shí)現(xiàn)了顯著的性能提升。這表明,未來機(jī)器人基礎(chǔ)模型可以依靠自主學(xué)習(xí)不斷提升自身能力,無需持續(xù)的人類干預(yù)。
總而言之,Levine教授的演講展示了通用機(jī)器人基礎(chǔ)模型的巨大潛力,以及通過結(jié)合推理、強(qiáng)化學(xué)習(xí)和自主學(xué)習(xí)等技術(shù)進(jìn)一步提升模型性能的途徑。這為具身智能的發(fā)展指明了方向,預(yù)示著未來機(jī)器人將擁有更強(qiáng)的泛化能力和更廣泛的應(yīng)用。
聯(lián)系作者
文章來源:AI科技評(píng)論
作者微信:
作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。