ICML’24研討會杰出論文獎!清華AIR&商湯研究院提出全新的具身多模態(tài)表征預(yù)訓(xùn)練方法 | 講座預(yù)告
AIGC動態(tài)歡迎閱讀
原標題:ICML’24研討會杰出論文獎!清華AIR&商湯研究院提出全新的具身多模態(tài)表征預(yù)訓(xùn)練方法 | 講座預(yù)告
關(guān)鍵字:智能,視覺,語言,模型,表征
文章來源:智猩猩GenAI
內(nèi)容字數(shù):0字
內(nèi)容摘要:
近年來,以谷歌RT系列為代表的視覺-語言-控制模型(VLCM,Vision-Language-Control Model)受到廣泛關(guān)注。VLCM 智能體可以通過視覺理解環(huán)境,并執(zhí)行人類語言所描述的任意任務(wù),展現(xiàn)出了極強的 zero-shot 泛化能力。
相較于語言模型(LM),只考慮單一語言模態(tài),視覺-語言模型(VLM)需要考慮視覺和語言兩個模態(tài),而視覺-語言-控制模型(VLCM)則需要考慮視覺、語言和控制三個模態(tài),在訓(xùn)練需要海量的示教數(shù)據(jù)。因此,數(shù)據(jù)的缺乏也是具身智能、機器人學(xué)習面臨的最嚴重問題之一。
為了解決數(shù)據(jù)稀缺的問題,一個通用的解決方案是表征預(yù)訓(xùn)練。然而,訓(xùn)練這樣的表征是非常困難的,因為對于機器人的決策而言,一個高度抽象的語言指令所描述的是一種動態(tài)的變化過程。所以,傳統(tǒng)多模態(tài)表征預(yù)訓(xùn)練需要考慮的是語言和單幀圖片的對齊,而具身智能中的多模態(tài)表征預(yù)訓(xùn)練需要解決語言和視頻軌跡的對齊。
針對當前問題,清華大學(xué)AIR與商湯研究院等提出一種decision-centric的多模態(tài)表征預(yù)訓(xùn)練方法DecisionNCE,清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)四年級博士生李健雄為論文一作。與Deci
原文鏈接:ICML’24研討會杰出論文獎!清華AIR&商湯研究院提出全新的具身多模態(tài)表征預(yù)訓(xùn)練方法 | 講座預(yù)告
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介: