DimensionX

DimensionX是一個由香港科技大學、清華大學和生數科技聯合研發的先進框架，能夠通過單張圖片生成高質量的3D和4D場景。借助視頻擴散技術，該框架實現了對空間和時間維度的精確控制。其特色在于基于ST-Director技術解耦空間和時間因素，支持或組合控制，從而創造出動態變化的復雜場景。

DimensionX是什么

DimensionX是一個前沿框架，由香港科技大學、清華大學和生數科技共同開發，致力于從單張圖片生成高度逼真的3D和4D場景。該框架利用視頻擴散技術，能夠精確控制空間和時間維度。通過ST-Director技術，DimensionX實現了空間與時間因素的解耦，支持或組合的控制方式，生成具有動態變化的復雜場景。此外，DimensionX還采用了軌跡感知機制和身份保持去噪策略，以增強場景的一致性與真實感。

DimensionX

DimensionX的主要功能

3D場景生成：能夠從單張圖片生成新的視角渲染，從而構建出三維場景。
4D場景生成：通過單張圖片生成包含時間和空間變化的動態場景。
視頻擴散控制：基于ST-Director技術，實現對視頻擴散過程中空間和時間因素的精準解耦和控制。
軌跡感知機制：專為3D生成設計，以應對復雜的現實世界場景和相機。
身份保持去噪策略：專為4D生成設計，提升場景一致性，尤其是在動態對象與背景之間。

DimensionX的技術原理

ST-Director（空間和時間導演）：
- 維度感知LoRAs：通過學習維度變化數據獲得的低秩適應（LoRAs），實現視頻擴散中空間和時間因素的解耦。
- S-Director（空間導演）：負責生成與空間變化相關的視頻幀，控制相機的視角和位置。
- T-Director（時間導演）：負責生成與時間變化相關的視頻幀，控制場景中對象的動態。
維度感知分解：定義空間和時間的等價關系，構建S-Quotient Space與T-Quotient Space，分別捕捉視頻中的空間軌跡和時間軌跡。
無需訓練的維度感知組合：基于視頻擴散過程中的去噪機制，開發出無需訓練的方法，實現混合維度控制，能夠在去噪過程的不同階段切換S-Director與T-Director，生成包含空間和時間變化的視頻。
3D場景生成：
- 軌跡感知機制：針對不同的相機軌跡訓練多個S-Director，以覆蓋廣泛的相機模式。
- 視頻插值模型：生成高質量的插值視頻，平滑而一致地過渡稀疏視圖。
4D場景生成：
- 參考視頻latent共享：基于選擇的參考幀并共享其latent代碼，以增強所有空間變體視頻之間的一致性。
- 外觀細化：對每個視點的動態視頻進行細化，增強多視圖視頻間的穩定性與一致性。