機器人領域首個開源視覺-語言操作大模型，RoboFlamingo框架激發開源VLMs更大潛能

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：機器人領域首個開源視覺–語言操作大模型，RoboFlamingo框架激發開源VLMs更大潛能
關鍵字：機器人,語言,任務,模型,視覺
文章來源：機器之心
內容字數：7960字

內容摘要：

機器之心專欄
機器之心編輯部還在苦苦尋找開源的機器人大模型？試試RoboFlamingo！
近年來，大模型的研究正在加速推進，它逐漸在各類任務上展現出多模態的理解和時間空間上的推理能力。機器人的各類具身操作任務天然就對語言指令理解、場景感知和時空規劃等能力有著很高的要求，這自然引申出一個問題：能不能充分利用大模型能力，將其遷移到機器人領域，直接規劃底層動作序列呢？
對此，ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓練。使用簡單、少量的微調就可以把 VLM 變成 Robotics VLM，從而適用于語言交互的機器人操作任務。
OpenFlamingo 在機器人操作數據集 CALVIN 上進行了驗證，實驗結果表明，RoboFlamingo 只利用了 1% 的帶語言標注的數據即在一系列機器人操作任務上取得了 SOTA 的性能。隨著 RT-X 數據集開放，采用開源數據預訓練 RoboFlamingo 并 finetune 到不同機器人平臺，將有希望成為一個簡單有效的

原文鏈接：機器人領域首個開源視覺-語言操作大模型，RoboFlamingo框架激發開源VLMs更大潛能