AIGC動態歡迎閱讀
原標題:從20億數據中學習物理世界,基于Transformer的通用世界模型成功挑戰視頻生成
關鍵字:視頻,模型,視覺,世界,語言
文章來源:量子位
內容字數:4469字
內容摘要:
允中 發自 凹非寺量子位 | 公眾號 QbitAI建立會做視頻的世界模型,也能通過Transformer來實現了!
來自清華和極佳科技的研究人員聯手,推出了全新的視頻生成通用世界模型——WorldDreamer。
它可以完成自然場景和自動駕駛場景多種視頻生成任務,例如文生視頻、圖生視頻、視頻編輯、動作序列生視頻等。
據團隊介紹,通過預測Token的方式來建立通用場景世界模型,WorldDreamer是業界首個。
它把視頻生成轉換為一個序列預測任務,可以對物理世界的變化和規律進行充分地學習。
可視化實驗已經證明,WorldDreamer已經深刻理解了通用世界的動態變化規律。
那么,它都能完成哪些視頻任務,效果如何呢?
支持多種視頻任務圖像生成視頻(Image to Video)WorldDreamer可以基于單一圖像預測未來的幀。
只需首張圖像輸入,WorldDreamer將剩余的視頻幀視為被掩碼的視覺Token,并對這部分Token進行預測。
如下圖所示,WorldDreamer具有生成高質量電影級別視頻的能力。
其生成的視頻呈現出無縫的逐幀,類似于真實電影中流暢的攝像機。
原文鏈接:從20億數據中學習物理世界,基于Transformer的通用世界模型成功挑戰視頻生成
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...