純文本模型訓(xùn)出「視覺」表征!MIT最新研究:語言模型用代碼就能作畫
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:純文本模型訓(xùn)出「視覺」表征!MIT最新研究:語言模型用代碼就能作畫
關(guān)鍵字:模型,視覺,圖像,概念,場(chǎng)景
文章來源:新智元
內(nèi)容字?jǐn)?shù):14276字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS
【新智元導(dǎo)讀】不用圖像,只用文本就能訓(xùn)練出視覺概念表征?用寫代碼的方式讀懂畫面,形狀、物體、場(chǎng)景都能懂!只會(huì)「看書」的大語言模型,有現(xiàn)實(shí)世界的視覺感知力嗎?通過對(duì)字符串之間的關(guān)系進(jìn)行建模,關(guān)于視覺世界,語言模型到底能學(xué)會(huì)什么?
最近,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(MIT CSAIL)的研究人員對(duì)語言模型的視覺能力進(jìn)行了系統(tǒng)的評(píng)估,從簡(jiǎn)單形狀、物體到復(fù)雜場(chǎng)景,要求模型不斷生成和識(shí)別出更復(fù)雜的視覺概念,并演示了如何利用純文本模型訓(xùn)練出一個(gè)初步的視覺表征學(xué)習(xí)系統(tǒng)。論文鏈接:https://arxiv.org/abs/2401.01862
由于語言模型無法以像素的形式輸入或輸出視覺信息,所以在研究中使用代碼來渲染、表示圖像。
雖然LLM生成的圖像看起來不像自然圖像,但從生成結(jié)果,以及模型可以自我糾正來看,對(duì)字符串/文本的精確建模可以教會(huì)語言模型關(guān)于視覺世界中的諸多概念。
此外,研究人員還探索了如何利用文本模型生成的圖像來進(jìn)行自監(jiān)督視覺表征學(xué)習(xí),結(jié)果也展現(xiàn)了其用作視覺模型訓(xùn)練的潛力,可以僅使用LLM對(duì)自然圖像進(jìn)行語義評(píng)估。
語言模型的視覺概念先問一個(gè)問題:對(duì)于
原文鏈接:純文本模型訓(xùn)出「視覺」表征!MIT最新研究:語言模型用代碼就能作畫
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。
相關(guān)文章
