Boximator是一款由字節(jié)跳動研究團隊開發(fā)的先進視頻合成技術(shù),旨在生成更加豐富且可控的,從而提升視頻合成的質(zhì)量與靈活性。該技術(shù)采用了兩種類型的約束框(硬框與軟框),使得用戶能夠?qū)σ曨l中的對象進行精準的定位、形狀調(diào)整及路徑控制。
Boximator是什么?
Boximator是一種創(chuàng)新的視頻合成技術(shù),由字節(jié)跳動的研究團隊研發(fā),旨在提升視頻合成的質(zhì)量和可控性。通過引入硬框和軟框兩種約束機制,Boximator使用戶能夠?qū)σ曨l中的對象進行細致的控制。
- 官方網(wǎng)站:https://boximator.github.io/
- 研究論文:https://arxiv.org/abs/2402.01566

Boximator的工作原理
Boximator的運作基于視頻擴散模型,通過引入新的控制機制來提高視頻合成的精細程度和靈活性。以下是Boximator的工作流程:
- 對象選擇與框定義:
- 用戶可以在視頻的起始幀或條件幀中使用硬框(Hard Box)來精確選擇和定位對象,這些框定義了對象的具體邊界。
- 在需要較寬松控制的情況下,用戶可使用軟框(Soft Box)來定義對象的大致活動區(qū)域,允許對象在該區(qū)域內(nèi)移動。
- 對象ID與框關(guān)聯(lián):
- Boximator為每個對象分配一個唯一的對象ID,并以RGB顏色空間進行表示,使得每個框都有獨特的“顏色”。這樣,模型可以跨幀跟蹤和控制相同的對象。
- 視頻擴散模型集成:
- Boximator作為一個插件,與已有的視頻擴散模型(如PixelDance和ModelScope)相結(jié)合。在訓練期間,基礎(chǔ)模型的權(quán)重被凍結(jié),以保留其預訓練的知識,僅訓練新增的控制模塊。
- 自跟蹤技術(shù):
- 為簡化框與對象之間的關(guān)聯(lián)學習,Boximator引入了自跟蹤技術(shù)。模型在訓練階段生成與對象ID對應的彩色邊界框,確保每一幀中生成正確的框并與Boximator的約束相一致。
- 多階段訓練過程:
- Boximator的訓練分為三個階段。第一階段使用硬框約束,幫助模型建立對坐標和ID的基本理解。第二階段引入軟框,通過隨機擴展硬框增加訓練難度。第三階段繼續(xù)使用軟框,但不生成可見的邊界框,而是讓模型內(nèi)部保留這種關(guān)聯(lián)。
- 推理階段:
- 在生成視頻的推理階段,Boximator在用戶定義的框之外的幀中插入軟框,這些軟框通過線性插值和放松處理生成,確保對象大致遵循預期軌跡,同時給予模型足夠的靈活性以引入變化。
- 控制與質(zhì)量評估:
- 通過平均精度(AP)分數(shù)評估控制的準確性,比較生成視頻中的檢測到的邊界框與真實邊界框的一致性。
- 視頻質(zhì)量則通過Fréchet Video Distance(FVD)分數(shù)和CLIP相似性分數(shù)(CLIPSIM)進行衡量。
通過這些步驟,Boximator實現(xiàn)了對視頻合成中對象的精細控制,同時保持了視頻的高質(zhì)量和真實感。

Boximator的應用場景
- 電影和電視制作:在電影和電視劇的后期制作中,Boximator可以用于生成或修改場景,例如添加或刪除角色、調(diào)整動作場景或創(chuàng)造復雜的特效,從而省去昂貴的現(xiàn)場拍攝成本。
- 游戲開發(fā):游戲開發(fā)者可以利用Boximator創(chuàng)建動態(tài)的游戲場景和角色動畫,尤其是在需要高度定制化或快速迭代內(nèi)容時,這將顯著節(jié)省開發(fā)時間與成本。
- 虛擬現(xiàn)實與增強現(xiàn)實內(nèi)容創(chuàng)作:在VR和AR領(lǐng)域,Boximator可以用來生成逼真的虛擬環(huán)境和交互式對象,為用戶提供沉浸式體驗。
常見問題
Q1: Boximator主要適用于哪些領(lǐng)域?
A1: Boximator廣泛應用于電影、電視制作、游戲開發(fā)以及虛擬現(xiàn)實和增強現(xiàn)實內(nèi)容創(chuàng)作等多個領(lǐng)域。
Q2: Boximator如何保證視頻合成的質(zhì)量?
A2: Boximator通過引入控制與質(zhì)量評估機制,確保生成視頻的真實感和高質(zhì)量。
Q3: Boximator是否容易上手?
A3: Boximator設(shè)計了友好的用戶界面,用戶可通過簡單的框定義和設(shè)置進行視頻合成,降低了使用門檻。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號