14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍
關(guān)鍵字:模型,特征,注意力,研究者,編輯
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3895字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部Meta的視頻合成新框架又給了我們一點(diǎn)小小的震撼。就今天的人工智能發(fā)展水平來說,文生圖、圖生視頻、圖像/視頻風(fēng)格遷移都已經(jīng)不算什么難事。
生成式 AI 天賦異稟,能夠毫不費(fèi)力地創(chuàng)建或修改內(nèi)容。尤其是圖像編輯,在以十億規(guī)模數(shù)據(jù)集為基礎(chǔ)預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型的推動(dòng)下,經(jīng)歷了重大發(fā)展。這股浪潮催生了大量圖像編輯和內(nèi)容創(chuàng)建應(yīng)用。
基于圖像的生成模型所取得的成就基礎(chǔ)上,下一個(gè)挑戰(zhàn)的領(lǐng)域必然是為其增加「時(shí)間維度」,從而實(shí)現(xiàn)輕松而富有創(chuàng)意的視頻編輯。
一種直接策略是使用圖像模型逐幀處理視頻,然而,生成式圖像編輯本身就具有高變異性—即使根據(jù)相同的文本提示,也存在無數(shù)種編輯給定圖像的方法。如果每一幀都編輯,很難保持時(shí)間上的一致性。
在最近的一篇論文中,來自Meta GenAI團(tuán)隊(duì)的研究者提出了 Fairy——通過對(duì)圖像編輯擴(kuò)散模型進(jìn)行「簡(jiǎn)單的改編」,大大增強(qiáng)了AI在視頻編輯上的表現(xiàn)。
以下是Fairy的編輯視頻效果展示:Fairy 生成 120 幀 512×384 視頻(4 秒時(shí)長(zhǎng),30 FPS)的時(shí)間僅為 14 秒,比之前的方法至少快 44 倍。一項(xiàng)涉及 1000
原文鏈接:14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)