機(jī)器人領(lǐng)域首個(gè)開源視覺(jué)-語(yǔ)言操作大模型,RoboFlamingo框架激發(fā)開源VLMs更大潛能
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:機(jī)器人領(lǐng)域首個(gè)開源視覺(jué)–語(yǔ)言操作大模型,RoboFlamingo框架激發(fā)開源VLMs更大潛能
關(guān)鍵字:機(jī)器人,語(yǔ)言,任務(wù),模型,視覺(jué)
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7960字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部還在苦苦尋找開源的機(jī)器人大模型?試試RoboFlamingo!
近年來(lái),大模型的研究正在加速推進(jìn),它逐漸在各類任務(wù)上展現(xiàn)出多模態(tài)的理解和時(shí)間空間上的推理能力。機(jī)器人的各類具身操作任務(wù)天然就對(duì)語(yǔ)言指令理解、場(chǎng)景感知和時(shí)空規(guī)劃等能力有著很高的要求,這自然引申出一個(gè)問(wèn)題:能不能充分利用大模型能力,將其遷移到機(jī)器人領(lǐng)域,直接規(guī)劃底層動(dòng)作序列呢?
對(duì)此,ByteDance Research 基于開源的多模態(tài)語(yǔ)言視覺(jué)大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型,只用單機(jī)就可以訓(xùn)練。使用簡(jiǎn)單、少量的微調(diào)就可以把 VLM 變成 Robotics VLM,從而適用于語(yǔ)言交互的機(jī)器人操作任務(wù)。
OpenFlamingo 在機(jī)器人操作數(shù)據(jù)集 CALVIN 上進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,RoboFlamingo 只利用了 1% 的帶語(yǔ)言標(biāo)注的數(shù)據(jù)即在一系列機(jī)器人操作任務(wù)上取得了 SOTA 的性能。隨著 RT-X 數(shù)據(jù)集開放,采用開源數(shù)據(jù)預(yù)訓(xùn)練 RoboFlamingo 并 finetune 到不同機(jī)器人平臺(tái),將有希望成為一個(gè)簡(jiǎn)單有效的
原文鏈接:機(jī)器人領(lǐng)域首個(gè)開源視覺(jué)-語(yǔ)言操作大模型,RoboFlamingo框架激發(fā)開源VLMs更大潛能
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)