清華提出ViLa，揭秘 GPT-4V 在機(jī)器人視覺規(guī)劃中的潛力

AIGC動態(tài)2年前 (2023)發(fā)布夕小瑤科技說

AIGC動態(tài)歡迎閱讀

原標(biāo)題：清華提出ViLa，揭秘 GPT-4V 在機(jī)器人視覺規(guī)劃中的潛力

關(guān)鍵字：任務(wù),視覺,語言,機(jī)器人,指令

文章來源：夕小瑤科技說

內(nèi)容字?jǐn)?shù)：8208字

內(nèi)容摘要：夕小瑤科技說原創(chuàng)作者 | 智商掉了一地、兔子醬人類在面對簡潔的語言指令時，可以根據(jù)上下文進(jìn)行一連串的操作。對于“拿一罐可樂”的指令，若可樂近在眼前，下意識的反應(yīng)會是迅速去拿；而當(dāng)沒看到可樂時，人們會主動去冰箱或儲物柜中尋找。這種自適應(yīng)的能力源于對場景的深刻理解和對廣泛常識的運(yùn)用，使人們能夠根據(jù)上下文推斷和解釋指令。舉例來說，對于機(jī)器人系統(tǒng)，底層指令可能是精確的關(guān)節(jié)或輪速控制。相比之下，高級語言指令可能是描述一個任務(wù)或目標(biāo)，比如“將藍(lán)色的盤子放在桌子上”。會更接近人類日常語言、易于理解，而不需要詳細(xì)規(guī)定每個具體的動作。因此使用高級語言指令有助于提高系統(tǒng)的可理解性和用戶友好性。當(dāng)下對于視覺語言模型（VLM）如 GPT-4V 的研究如火如荼，那么如何借助這些模型讓機(jī)器人更好地理解高級語言指令，對非專業(yè)領(lǐng)域的人們更加友好呢？來自清華的團(tuán)隊(duì)提出了一種簡單有效的方法——ViLa，利用 GPT-4…

原文鏈接：點(diǎn)此閱讀原文：清華提出ViLa，揭秘 GPT-4V 在機(jī)器人視覺規(guī)劃中的潛力