谷歌重磅發(fā)布零樣本視頻生成模型!效果驚艷,趕超擴散模型?

AIGC動態(tài)歡迎閱讀
原標(biāo)題:谷歌重磅發(fā)布零樣本視頻生成模型!效果驚艷,趕超擴散模型?
關(guān)鍵字:視頻,模型,文本,圖像,語言
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):1739字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 王二狗今日,谷歌AI發(fā)布了最新的視頻生成模型VideoPoet。
VideoPoet 沒有采用流行的擴散模型架構(gòu),其本質(zhì)上是一種多模態(tài)大語言模型,可將任何自回歸語言模型或大語言模型轉(zhuǎn)換為高質(zhì)量的視頻生成器。擴散模型能支持的文本到視頻、圖像到視頻等功能,VideoPoet 也都能支持。
VideoPoet 包含一些簡單的組件:
預(yù)訓(xùn)練的 MAGVIT V2 視頻分詞器和 SoundStream 音頻分詞器將可變長度的圖像、視頻和音頻剪輯轉(zhuǎn)換為統(tǒng)一詞匯表中的離散代碼序列。這些代碼與基于文本的語言模型兼容,有助于與文本等其他模式的集成。
自回歸語言模型跨視頻、圖像、音頻和文本多模態(tài)學(xué)習(xí),以自回歸預(yù)測序列中的下一個視頻或音頻token 。
LLM 訓(xùn)練框架引入了多模態(tài)生成學(xué)習(xí)目標(biāo)的混合,包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續(xù)、視頻的inpainting和outpainting操作、視頻風(fēng)格化和視頻轉(zhuǎn)語言功能。此外,這些任務(wù)可以組合在一起以獲得額外的零樣本功能(例如文本到音頻)。
圖注:VideoPoet模型概述,該模型能夠?qū)Ω鞣N以視頻為中心的輸入和輸出執(zhí)
原文鏈接:谷歌重磅發(fā)布零樣本視頻生成模型!效果驚艷,趕超擴散模型?
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。

粵公網(wǎng)安備 44011502001135號