UC伯克利等提出具身智能「動(dòng)作Tokenizer」,效率飆升5倍!
原標(biāo)題:UC伯克利等提出具身智能「動(dòng)作Tokenizer」,效率飆升5倍!
文章來源:新智元
內(nèi)容字?jǐn)?shù):4818字
高效訓(xùn)練機(jī)器人Transformer:FAST動(dòng)作Tokenizer的突破
本文總結(jié)了Physical Intelligence團(tuán)隊(duì)提出的FAST動(dòng)作Tokenizer,一種用于高效訓(xùn)練Transformer控制機(jī)器人的新方法。該方法顯著縮短了訓(xùn)練時(shí)間,并提升了機(jī)器人完成復(fù)雜任務(wù)的能力,標(biāo)志著機(jī)器人自回歸Transformer訓(xùn)練領(lǐng)域的重要進(jìn)展。
傳統(tǒng)方法的局限性
傳統(tǒng)的機(jī)器人動(dòng)作表示方法,例如簡單的離散劃分,在處理精細(xì)、高頻控制任務(wù)時(shí)存在局限性。雖然擴(kuò)散模型或流匹配方法(例如π0模型)能取得更好的性能,但其訓(xùn)練時(shí)間非常長。
FAST Tokenizer的核心思想
FAST旨在解決上述問題,它結(jié)合了離散余弦變換(DCT)和字節(jié)對編碼(BPE)兩種技術(shù)。DCT是一種高效的壓縮算法,用于壓縮原始動(dòng)作序列;BPE則進(jìn)一步壓縮DCT矩陣,將動(dòng)作序列轉(zhuǎn)換成數(shù)量更少、更密集的動(dòng)作Token。這種方法顯著提高了訓(xùn)練效率,將動(dòng)作Token數(shù)量減少了10倍以上。
FAST的具體步驟
FAST的工作流程包括:1. 對原始動(dòng)作序列進(jìn)行歸一化;2. 對每個(gè)動(dòng)作維度應(yīng)用DCT變換;3. 使用BPE對DCT矩陣進(jìn)行壓縮,生成最終的動(dòng)作Token。通過這種方式,F(xiàn)AST將原始動(dòng)作序列轉(zhuǎn)化為適合Transformer處理的離散表示。
FAST+:通用的機(jī)器人動(dòng)作Tokenizer
基于FAST,研究者還開發(fā)了FAST+,這是一個(gè)通用的機(jī)器人動(dòng)作Tokenizer,它在100萬個(gè)真實(shí)機(jī)器人動(dòng)作序列上進(jìn)行訓(xùn)練,能夠高效地處理各種類型的機(jī)器人動(dòng)作數(shù)據(jù),包括單臂、雙臂和移動(dòng)機(jī)器人。
π0-FAST:高效的機(jī)器人控制策略
將FAST與π0 VLA模型結(jié)合,研究者訓(xùn)練出了π0-FAST模型。實(shí)驗(yàn)結(jié)果表明,π0-FAST在完成折疊衣物、收拾餐桌等復(fù)雜精細(xì)任務(wù)上的表現(xiàn)與最先進(jìn)的擴(kuò)散模型相當(dāng),但訓(xùn)練時(shí)間縮短了5倍。這表明FAST顯著提升了自回歸Transformer在機(jī)器人控制領(lǐng)域的訓(xùn)練效率。
DROID數(shù)據(jù)集上的突破
利用π0-FAST,研究者首次在DROID數(shù)據(jù)集上訓(xùn)練出了一個(gè)通用的機(jī)器人控制策略,該策略能夠在新的環(huán)境中零樣本執(zhí)行多種操作任務(wù),這在之前是無法實(shí)現(xiàn)的。
未來展望
雖然π0-FAST取得了顯著進(jìn)展,但其推理速度仍有待提高。研究者認(rèn)為,借鑒LLM中加速離散自回歸Transformer模型推理的技術(shù),可以進(jìn)一步提升VLA模型的推理效率。
總而言之,F(xiàn)AST動(dòng)作Tokenizer為高效訓(xùn)練機(jī)器人Transformer提供了新的思路,其在壓縮率、訓(xùn)練速度和任務(wù)執(zhí)行能力方面都取得了顯著的突破,為機(jī)器人控制技術(shù)的未來發(fā)展帶來了新的可能性。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。