純文本模型訓出「視覺」表征！MIT最新研究：語言模型用代碼就能作畫

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：純文本模型訓出「視覺」表征！MIT最新研究：語言模型用代碼就能作畫
關鍵字：模型,視覺,圖像,概念,場景
文章來源：新智元
內容字數：14276字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】不用圖像，只用文本就能訓練出視覺概念表征？用寫代碼的方式讀懂畫面，形狀、物體、場景都能懂！只會「看書」的大語言模型，有現實世界的視覺感知力嗎？通過對字符串之間的關系進行建模，關于視覺世界，語言模型到底能學會什么？
最近，麻省理工學院計算機科學與人工智能實驗室（MIT CSAIL）的研究人員對語言模型的視覺能力進行了系統的評估，從簡單形狀、物體到復雜場景，要求模型不斷生成和識別出更復雜的視覺概念，并演示了如何利用純文本模型訓練出一個初步的視覺表征學習系統。論文鏈接：https://arxiv.org/abs/2401.01862
由于語言模型無法以像素的形式輸入或輸出視覺信息，所以在研究中使用代碼來渲染、表示圖像。
雖然LLM生成的圖像看起來不像自然圖像，但從生成結果，以及模型可以自我糾正來看，對字符串/文本的精確建模可以教會語言模型關于視覺世界中的諸多概念。
此外，研究人員還探索了如何利用文本模型生成的圖像來進行自監督視覺表征學習，結果也展現了其用作視覺模型訓練的潛力，可以僅使用LLM對自然圖像進行語義評估。
語言模型的視覺概念先問一個問題：對于

原文鏈接：純文本模型訓出「視覺」表征！MIT最新研究：語言模型用代碼就能作畫