未來視覺推理的重要基礎
原標題:向視覺版o1出擊,階躍張祥雨團隊推出“慢感知”,實現感知層面的推理時scaling
文章來源:量子位
內容字數:4320字
慢感知:讓AI“慢”下來,才能看得更清楚
本文總結了慢感知團隊在量子位公眾號上發表的關于“慢感知”研究的成果。該研究指出,當前的多模態大模型過于依賴System 1感知(快速直覺感知),缺乏對視覺細節的精細化處理,限制了其在復雜視覺任務中的應用。為此,研究人員提出了“慢感知”(Slow Perception)的概念,旨在通過任務分解和逐步推理,提升模型的視覺感知能力。
1. 慢感知的提出與背景
研究團隊發現,現有多模態模型在處理需要精細視覺感知的任務時表現不佳,例如,簡單的螺旋線字母排序題就難倒了所有模型。這表明,目前的模型對視覺信息的處理過于粗略,缺乏對細節的深入感知。慢感知的理念是,如同人類思考需要時間一樣,視覺感知也需要“慢”下來,才能更準確地理解信息。這需要對感知過程進行分解,逐步進行推理。
2. 基于幾何解析任務的慢感知建模
研究人員選擇幾何解析任務作為慢感知的初步建模對象,原因有三:首先,幾何題是多模態模型常遇到的挑戰,但許多模型甚至無法準確復制幾何圖形;其次,幾何解析本身就是一個具有挑戰性的視覺感知任務;最后,幾何圖形是人類對自然場景的抽象,從幾何解析入手可以為構建更通用的System 2視覺模型奠定基礎。
3. 慢感知的兩個階段:感知分解和感知流動
慢感知模型包含兩個階段:感知分解(Perception Decomposition)和感知流動(Perception Flow)。感知分解將復雜的幾何圖形分解成最基本的單元——線段,簡化了模型的處理難度。感知流動則模擬了人類使用尺子描繪線條的過程,模型通過虛擬的“感知尺”逐步描繪線段,將長線段的感知過程分解成多個步驟,每個步驟對應一個“凝視點”。感知尺長度的設置影響模型的推理計算量,長度越短,計算量越大,“慢”感知越明顯,模型性能也越好。
4. 實驗結果與分析
實驗結果表明,通過縮短感知尺長度,模型的幾何解析性能顯著提升,驗證了慢感知的有效性。即使在加入凝視點抖動的情況下,模型性能依然優于基線模型,這表明慢感知的關鍵在于建模感知的正確流向,而非對凝視點的精確度要求過高,這降低了模型訓練的難度。
5. 結論與未來展望
研究表明,提升多模態模型的System 2感知能力至關重要,而慢感知提供了一種有效的途徑。該研究在幾何解析任務上取得了初步成功,未來將進一步擴展到更通用的視覺任務中。慢感知的開源地址和論文地址也已公布,方便研究者進一步學習和應用。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破