具身智能的高層感知,可以從認知科學突破。
原標題:JHU 陳杰能:世界模型+心智模型,讓具身智能體擁有「想象力」
文章來源:AI科技評論
內容字數:11233字
從醫學影像到具身智能:GenEx與心智模型
本文介紹了約翰霍普金斯大學陳杰能博士及其團隊的研究成果GenEx,一個能夠讓AI擁有“想象力”的世界模型。GenEx通過生成可交互的三維環境,輔助具身智能體進行更有效的決策,其核心在于模擬人類大腦中的認知方式和理解機制。
1. TransUNet與醫學影像的黃金問題
陳杰能博士早期工作TransUNet,將Transformer與U-Net融合,在醫學圖像分割領域取得了顯著成果,引用量超過5000。他選擇醫學影像領域,是因為其規模化的機會以及能夠切實幫助到普通人的潛力。在達摩院醫療AI團隊實習期間,他參與CancerUniT項目,致力于開發能夠通過單次CT篩查多種癌癥的AI模型,這被視為一個“黃金問題”,他希望盡力推動其早日應用。
2. 視覺基礎模型與空間智能的探索
在字節跳動Seed團隊,陳杰能博士主導設計了視覺編碼器架構ViTamin,在ImageNet零樣本準確率上達到SOTA。他隨后轉向空間智能領域,認為空間智能的核心在于從2D圖像重建或推演出三維場景,這對于計算機視覺的突破至關重要。他指出,目前大模型在空間推理方面與人類能力仍存在較大差距。
3. GenEx:生成式世界探索者與心智模型的結合
GenEx系統包含兩個組件:想象世界和具身智能體,兩者構成一個共生系統。GenEx能夠僅依據單張RGB圖像生成整個三維連貫的想象環境,并支持智能體進行復雜任務,例如目標無關的探索和目標驅動的導航。GenEx的核心在于構建智能體的心智模型,模擬人類通過想象力探索未知環境的能力,并利用對未被觀測部分的預測性預期來完善認知,做出更明智的選擇。它還能擴展到多智能體場景,實現認知的相互更新。
4. 心智模型與世界模型的關聯
陳杰能博士認為,心智模型和世界模型本質上是相關的,都基于過往經驗和知識對未來狀態進行預測。GenEx通過構建具備空間想象力的三維心智模型,輔助智能體在部分觀測或缺失觀測的場景下做出更精確的決策,提高決策模型的泛化能力。這不同于僅關注低層次策略魯棒性的傳統研究,而是著眼于高層次問題,為具身智能體提供更全面的認知能力。
5. 未來展望
陳杰能博士希望在空間智能和具身智能領域繼續探索,將高層次的心智模型與低層次的策略結合,最終讓智能體能夠更好地理解和交互真實世界。
聯系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。