文生視頻下一站,Meta已經(jīng)開始視頻生視頻了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:文生視頻下一站,Meta已經(jīng)開始視頻生視頻了
關(guān)鍵字:視頻,研究者,模型,遮擋,條件
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6533字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:小舟、大盤雞?
文本指導(dǎo)的視頻到視頻(V2V)合成在各個(gè)領(lǐng)域具有廣泛的應(yīng)用,例如短視頻創(chuàng)作以及更廣泛的電影行業(yè)。擴(kuò)散模型已經(jīng)改變了圖像到圖像(I2I)的合成方式,但在視頻到視頻(V2V)合成方面面臨維持視頻幀間時(shí)間一致性的挑戰(zhàn)。在視頻上應(yīng)用 I2I 模型通常會(huì)在幀之間產(chǎn)生像素閃爍。
為了解決這個(gè)問(wèn)題,來(lái)自得州大學(xué)奧斯汀分校、Meta GenAI 的研究者提出了一種新的 V2V 合成框架 ——FlowVid,聯(lián)合利用了源視頻中的空間條件和時(shí)間光流線索(clue)。給定輸入視頻和文本 prompt,F(xiàn)lowVid 就可以合成時(shí)間一致的視頻。論文地址:https://huggingface.co/papers/2312.17681
項(xiàng)目地址:https://jeff-liangf.github.io/projects/flowvid/
總的來(lái)說(shuō),F(xiàn)lowVid 展示了卓越的靈活性,可與現(xiàn)有的 I2I 模型無(wú)縫協(xié)作,完成各種修改,包括風(fēng)格化、對(duì)象交換和局部編輯。在合成效率上,生成 30 FPS、512×512 分辨率的 4 秒視頻僅需 1.5 分鐘,分別比 CoDeF、Re
原文鏈接:文生視頻下一站,Meta已經(jīng)開始視頻生視頻了
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)