靠Scaling Laws煉出4D版視頻生成模型,多倫多大學北交大等攜手開源81K高質量數(shù)據(jù)集
AIGC動態(tài)歡迎閱讀
原標題:靠Scaling Laws煉出4D版視頻生成模型,多倫多大學北交大等攜手開源81K高質量數(shù)據(jù)集
關鍵字:模型,物體,內容,視頻,數(shù)據(jù)
文章來源:量子位
內容字數(shù):0字
內容摘要:
Diffusion4D團隊 投稿量子位 | 公眾號 QbitAI只需幾分鐘、一張圖或一句話,就能完成時空一致的4D內容生成。
注意看,這些生成的3D物體,是帶有動作變化的那種。也就是在3D物體的基礎之上,增加了時間維度的變化。
這一成果,名為Diffusion4D,來自多倫多大學、北京交通大學、德克薩斯大學奧斯汀分校和劍橋大學團隊。
具體而言,Diffusion4D整理篩選了約81K個4D assets,利用8卡GPU共16線程,花費超30天渲染得到了約400萬張圖片,包括靜態(tài)3D物體環(huán)拍、動態(tài)3D物體環(huán)拍,以及動態(tài)3D物體前景視頻。
作者表示,該方法是首個利用大規(guī)模數(shù)據(jù)集,訓練視頻生成模型生成4D內容的框架,目前項目已經開源所有渲染的4D數(shù)據(jù)集以及渲染腳本。
研究背景過去的方法采用了2D、3D預訓練模型在4D(動態(tài)3D)內容生成上取得了一定的突破,但這些方法主要依賴于分數(shù)蒸餾采樣(SDS)或者生成的偽標簽進行優(yōu)化,同時利用多個預訓練模型獲得監(jiān)督不可避免的導致時空上的不一致性以及優(yōu)化速度慢的問題。
4D內容生成的一致性包含了時間上和空間上的一致性,它們分別在視頻生成模型和多視圖生成
原文鏈接:靠Scaling Laws煉出4D版視頻生成模型,多倫多大學北交大等攜手開源81K高質量數(shù)據(jù)集
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破