微軟劍橋大學推出多模態思維可視化MVoT:大模型也擁有“空間想象力”
本文總結了微軟研究院、劍橋大學和中科院研究人員提出的多模態思維可視化(MVoT)方法,該方法旨在提升大語言模型(LLM)和多模態大語言模型(MLLM)的空間推理能力。
1. 思維鏈(CoT)的局限性和MVoT的提出
現有的思維鏈(CoT)方法在復雜空間推理方面表現不佳。人類能夠同時運用語言和圖像進行推理,MVoT正是受此啟發,將CoT擴展到多模態模型,通過結合文本和圖像信息進行推理,并可視化推理過程。
2. MVoT的核心思想和技術細節
MVoT的核心思想是讓AI在推理過程中生成視覺圖像來輔助思考,將語言和視覺推理融合。具體而言,MVoT微調自回歸多模態大語言模型(MLLM),并引入token差異損失來彌補不同模態分詞器之間的差距,提升可視化質量。MVoT在推理過程中生成交織的多模態思維(文本和圖像),最終生成答案。 該方法類似于人類的認知方式,能夠在文本和圖像之間無縫切換。
3. 實驗結果和性能提升
在三個動態空間推理任務(MAZE,MINIBEHAVIOR,FROZENLAKE)中,MVoT展現出優于傳統CoT的適應性和穩健性。尤其在難度最高的FROZENLAKE任務中,MVoT的表現比CoT高出20%以上。MVoT與CoT組合使用,能進一步提升性能上限,在部分任務中接近100%的準確率。
4. MVoT的可解釋性和可視化分析
MVoT生成的可視化圖像可以清晰地展現推理過程,提高了模型的可解釋性。研究人員還定義了自動化評估指標(可視化準確率、冗余度、正確步驟等)來評估生成的視覺推理質量。實驗結果表明,token差異損失有效提高了可視化準確性并減少了冗余。
5. 未來研究方向和局限性
MVoT的局限性在于推理過程中生成可視化會增加計算開銷。未來研究方向包括探索更緊湊的圖像表示,以及借鑒擴散模型中的圖像生成技術來改進MVoT。
6. 作者介紹
該研究的主要貢獻者來自微軟研究院和劍橋大學,擁有深厚的AI和多模態學習背景。
總而言之,MVoT 作為一種新穎的多模態推理方法,通過結合文本和圖像信息,并可視化推理過程,有效提升了大模型的空間推理能力和可解釋性,為未來多模態模型的發展提供了新的方向。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。