清華提出ViLa,揭秘 GPT-4V 在機(jī)器人視覺規(guī)劃中的潛力
AIGC動態(tài)歡迎閱讀
原標(biāo)題:清華提出ViLa,揭秘 GPT-4V 在機(jī)器人視覺規(guī)劃中的潛力
關(guān)鍵字:任務(wù),視覺,語言,機(jī)器人,指令
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):8208字
內(nèi)容摘要:夕小瑤科技說 原創(chuàng)作者 | 智商掉了一地、兔子醬人類在面對簡潔的語言指令時,可以根據(jù)上下文進(jìn)行一連串的操作。對于“拿一罐可樂”的指令,若可樂近在眼前,下意識的反應(yīng)會是迅速去拿;而當(dāng)沒看到可樂時,人們會主動去冰箱或儲物柜中尋找。這種自適應(yīng)的能力源于對場景的深刻理解和對廣泛常識的運(yùn)用,使人們能夠根據(jù)上下文推斷和解釋指令。舉例來說,對于機(jī)器人系統(tǒng),底層指令可能是精確的關(guān)節(jié)或輪速控制。相比之下,高級語言指令可能是描述一個任務(wù)或目標(biāo),比如“將藍(lán)色的盤子放在桌子上”。會更接近人類日常語言、易于理解,而不需要詳細(xì)規(guī)定每個具體的動作。因此使用高級語言指令有助于提高系統(tǒng)的可理解性和用戶友好性。當(dāng)下對于視覺語言模型(VLM)如 GPT-4V 的研究如火如荼,那么如何借助這些模型讓機(jī)器人更好地理解高級語言指令,對非專業(yè)領(lǐng)域的人們更加友好呢?來自清華的團(tuán)隊(duì)提出了一種簡單有效的方法——ViLa,利用 GPT-4…
原文鏈接:點(diǎn)此閱讀原文:清華提出ViLa,揭秘 GPT-4V 在機(jī)器人視覺規(guī)劃中的潛力
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。