Next-Frame Diffusion – 北大聯(lián)合微軟推出的自回歸視頻生成模型
Next-Frame Diffusion (NFD) 是由北京大學(xué)和微軟研究院攜手打造的自回歸視頻生成模型。它巧妙地融合了擴(kuò)散模型生成高品質(zhì)圖像的能力,以及自回歸模型在保持因果性和可控性方面的優(yōu)勢(shì)。 NFD 采用了塊因果注意力機(jī)制和擴(kuò)散變換器,實(shí)現(xiàn)了高效的幀級(jí)生成。
Next-Frame Diffusion:開(kāi)啟視頻生成新篇章
Next-Frame Diffusion (NFD) 是一款革新性的自回歸視頻生成模型,它匯聚了北京大學(xué)與微軟研究院的智慧結(jié)晶。這款模型巧妙地結(jié)合了擴(kuò)散模型在圖像生成上的卓越表現(xiàn),以及自回歸模型在因果關(guān)系和可控性方面的獨(dú)特優(yōu)勢(shì)。 NFD 采用塊因果注意力機(jī)制和擴(kuò)散變換器,實(shí)現(xiàn)了幀級(jí)別的快速生成,能夠在保持視頻質(zhì)量和連貫性的同時(shí),實(shí)現(xiàn)超過(guò)30幀每秒的實(shí)時(shí)視頻生成。 通過(guò)引入一致性蒸餾和推測(cè)性采樣等先進(jìn)技術(shù),NFD 進(jìn)一步提升了采樣效率。 在大規(guī)模動(dòng)作條件視頻生成任務(wù)中,NFD 展現(xiàn)出卓越性能,顯著超越了現(xiàn)有模型。
核心功能
- 實(shí)時(shí)視頻生成:在高性能GPU上,NFD 能夠以超過(guò)30幀每秒的速度生成視頻,使其成為對(duì)響應(yīng)速度有極高要求的交互式應(yīng)用(如游戲、虛擬現(xiàn)實(shí)和實(shí)時(shí)視頻編輯)的理想選擇。
- 高保真視頻生成:NFD 在連續(xù)空間內(nèi)生成高質(zhì)量的視頻內(nèi)容,能夠更好地捕捉細(xì)節(jié)和紋理,優(yōu)于傳統(tǒng)的自回歸模型。
- 動(dòng)作條件生成:根據(jù)用戶的實(shí)時(shí)操作,NFD 可以生成相應(yīng)的視頻內(nèi)容,為交互式應(yīng)用提供了極高的靈活性和可控性。
- 長(zhǎng)期視頻生成:NFD 能夠生成任意長(zhǎng)度的視頻內(nèi)容,非常適合需要長(zhǎng)期連貫性的應(yīng)用,例如故事敘述或模擬環(huán)境。
項(xiàng)目官網(wǎng)
- 項(xiàng)目官網(wǎng):https://nextframed.github.io/
技術(shù)亮點(diǎn)
- 塊因果注意力機(jī)制(Block-wise Causal Attention):該機(jī)制是模型的核心,它融合了幀內(nèi)的雙向注意力和幀間的因果依賴。在每一幀內(nèi)部,模型通過(guò)雙向自注意力機(jī)制捕捉幀內(nèi)的空間依賴關(guān)系。在幀之間,模型保持因果性,確保生成的視頻具有連貫性和一致性。
- 擴(kuò)散模型與擴(kuò)散變換器(Diffusion Transformer):NFD 基于擴(kuò)散模型的原理,通過(guò)逐步去噪來(lái)生成視頻幀。擴(kuò)散變換器是 NFD 的關(guān)鍵組件,它基于 Transformer 架構(gòu)的強(qiáng)大建模能力,處理視頻的時(shí)空依賴關(guān)系。
- 一致性蒸餾(Consistency Distillation):為了加速采樣過(guò)程,NFD 引入了一致性蒸餾技術(shù),將圖像領(lǐng)域的 sCM (Simplified Consistency Model) 擴(kuò)展到視頻領(lǐng)域,從而顯著提升生成速度,并保持生成內(nèi)容的高質(zhì)量。
- 推測(cè)性采樣(Speculative Sampling):通過(guò)利用相鄰幀動(dòng)作輸入的一致性,NFD 提前生成未來(lái)幾幀。如果后續(xù)檢測(cè)到動(dòng)作輸入發(fā)生變化,則丟棄推測(cè)生成的幀,并從最后一個(gè)驗(yàn)證幀重新開(kāi)始生成,從而減少推理時(shí)間,提高實(shí)時(shí)生成的效率。
- 動(dòng)作條件輸入(Action Conditioning):NFD 依賴動(dòng)作條件輸入來(lái)控制視頻生成的方向和內(nèi)容。動(dòng)作輸入可以是用戶的操作指令、控制信號(hào)或其他形式的條件信息,模型根據(jù)這些輸入生成相應(yīng)的視頻幀。
應(yīng)用場(chǎng)景
- 游戲開(kāi)發(fā):根據(jù)玩家的操控,實(shí)時(shí)生成動(dòng)態(tài)的游戲環(huán)境,極大地增強(qiáng)游戲體驗(yàn)。
- 虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR):實(shí)時(shí)生成虛擬場(chǎng)景,為 VR 和 AR 應(yīng)用提供沉浸式的體驗(yàn)。
- 視頻內(nèi)容創(chuàng)作:生成高質(zhì)量的視頻內(nèi)容,適用于廣告、電影和電視劇制作。
- 自動(dòng)駕駛和機(jī)器人:用于生成自動(dòng)駕駛車輛或機(jī)器人在不同環(huán)境下的行為和場(chǎng)景,用于訓(xùn)練和測(cè)試。
- 教育和培訓(xùn):生成虛擬實(shí)驗(yàn)環(huán)境,幫助學(xué)生進(jìn)行科學(xué)實(shí)驗(yàn)和學(xué)習(xí)。
常見(jiàn)問(wèn)題
Q:Next-Frame Diffusion 模型的優(yōu)勢(shì)是什么?
A:NFD 在保持視頻質(zhì)量和連貫性的同時(shí),實(shí)現(xiàn)了超過(guò)30FPS的實(shí)時(shí)視頻生成。它結(jié)合了擴(kuò)散模型的高保真生成能力和自回歸模型的因果性和可控性,并通過(guò)塊因果注意力機(jī)制和擴(kuò)散變換器等技術(shù),在大規(guī)模動(dòng)作條件視頻生成任務(wù)中表現(xiàn)出色。
Q:NFD 適用于哪些應(yīng)用場(chǎng)景?
A:NFD 適用于游戲開(kāi)發(fā)、虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR)、視頻內(nèi)容創(chuàng)作、自動(dòng)駕駛和機(jī)器人、以及教育和培訓(xùn)等多個(gè)領(lǐng)域。
Q:如何獲取關(guān)于 NFD 的更多信息?
A:您可以通過(guò)項(xiàng)目官網(wǎng)和 arXiv 技術(shù)論文獲取更多信息。