Vidu Q1 – 生數(shù)科技推出的高可控視頻大模型
Vidu Q1 是由清華大學(xué)人工智能研究院副院長、生數(shù)科技創(chuàng)始人兼首席科學(xué)家朱軍教授的團(tuán)隊開發(fā)的一款高可控性視頻大模型。該產(chǎn)品在多主體細(xì)節(jié)控制、音效同步以及畫質(zhì)增強(qiáng)等方面表現(xiàn)卓越。Vidu Q1 允許用戶精確地調(diào)整場景中多個主體的位置、大小和軌跡,并能夠在時間軸上標(biāo)注音效的類型和時長,實現(xiàn)了±0.1秒的高同步精度。它還具備針對模糊區(qū)域進(jìn)行局部超分重建的能力,即使在將4K視頻放大8倍的情況下也不會出現(xiàn)馬賽克現(xiàn)象。
Vidu Q1是什么
Vidu Q1 是清華大學(xué)人工智能研究院副院長、生數(shù)科技創(chuàng)始人兼首席科學(xué)家朱軍教授團(tuán)隊推出的高可控視頻大模型。在多主體細(xì)節(jié)控制、音效同步以及畫質(zhì)提升等方面,Vidu Q1 取得了顯著的進(jìn)展。用戶可以精準(zhǔn)調(diào)整視頻中各個主體的位置、大小和軌跡,并在時間軸上標(biāo)注音效類型與時長,確保同步精度達(dá)到±0.1秒。此外,Vidu Q1 還能夠針對模糊區(qū)域進(jìn)行局部超分辨率重建,即使在將4K視頻放大8倍時也能保持清晰,避免馬賽克現(xiàn)象的出現(xiàn)。
Vidu Q1的主要功能
- 精準(zhǔn)調(diào)整主體屬性:用戶可以通過上傳參考圖和文字指令,選定視頻中的任意角色或?qū)ο?,精?zhǔn)調(diào)整其位置(坐標(biāo)軸定位)、大?。ò俜直瓤s放)、軌跡(自定義路徑曲線)以及動作細(xì)節(jié)(如“抬手15度”“眨眼頻率2秒/次”)。實測結(jié)果顯示,同一指令生成10次視頻時,角色的偏移誤差小于5像素,而傳統(tǒng)模型的誤差通常超過200像素。
- 多主體一致性:在處理多主體場景時,Vidu Q1 能夠保持各主體之間的一致性,確保視頻中的多個角色或物體的動作和位置協(xié)調(diào)統(tǒng)一,這對于制作復(fù)雜的多主體視頻內(nèi)容(如動畫、影視短劇等)至關(guān)重要。
- 音效時間軸控制:用戶可以在時間軸上精確標(biāo)注音效的類型和時長,例如設(shè)置0:00-0:03秒為風(fēng)聲(強(qiáng)度70%),0:04-0:05秒為玻璃破碎聲(左聲道優(yōu)先)。Vidu Q1 的音效同步精度達(dá)到±0.1秒,相較于傳統(tǒng)AI音效隨機(jī)匹配,顯著提升了視頻的沉浸感和感染力。
- 局部超分重建:針對模糊區(qū)域,Vidu Q1 能夠進(jìn)行局部超分辨率重建,即便是4K視頻放大8倍也不會出現(xiàn)馬賽克。用戶還可以手動調(diào)節(jié)光影強(qiáng)度、材質(zhì)紋理以及景深虛化等,進(jìn)一步提升視頻的視覺質(zhì)量。
Vidu Q1的技術(shù)原理
- 技術(shù)架構(gòu):Vidu Q1 基于擴(kuò)散模型(Diffusion Model)和 U-ViT 架構(gòu)開發(fā),結(jié)合了Transformer的可擴(kuò)展性與長序列建模能力,能夠處理長達(dá)16秒的1080p視頻。模型通過視頻自編碼器減少視頻的空間和時間維度,以實現(xiàn)高效的訓(xùn)練和推斷。
- 多模態(tài)融合:Vidu Q1 融合了文本、圖像和視頻等多種模態(tài)的信息,通過靈活的多元輸入實現(xiàn)了多角度、多主體和多元素的一致性生成。這使得 Vidu Q1 能夠生成具有高度一致性和動態(tài)性的視頻內(nèi)容。
- 自動生成與標(biāo)注:為了解決大規(guī)模視頻訓(xùn)練數(shù)據(jù)的標(biāo)注問題,Vidu Q1 采用高性能的視頻標(biāo)題生成器來自動標(biāo)注訓(xùn)練視頻。在推斷過程中,應(yīng)用了重新標(biāo)題技術(shù),將用戶輸入重新表述為更適合模型的形式。
- 可控視頻生成的拓展:Vidu Q1 還進(jìn)行了其他可控視頻生成的實驗,包括邊緣檢測到視頻生成、視頻預(yù)測和主體驅(qū)動生成等,實驗顯示了 Vidu Q1 在不同應(yīng)用場景中的潛力。
Vidu Q1的應(yīng)用場景
- 影視制作:Vidu Q1 能夠快速生成高質(zhì)量的視頻內(nèi)容,大幅縮短制作周期并降低成本。其多鏡頭生成能力和對時空一致性的控制,為特效制作、場景剪輯等提供了便利。
- 廣告宣傳:Vidu Q1 可以快速生成多種風(fēng)格和主題的視頻廣告,以滿足不同客戶的需求。依據(jù)用戶的興趣和行為數(shù)據(jù),實現(xiàn)精準(zhǔn)投放和個性化推薦,從而提升廣告的轉(zhuǎn)化率和效果。
- 動畫制作:Vidu Q1 的多主體一致性控制能力在動畫制作中顯得尤為重要,能夠確保角色在不同視角下的細(xì)節(jié)一致性,從而減輕動畫師的工作負(fù)擔(dān)。
常見問題
如您對 Vidu Q1 有任何疑問或需要進(jìn)一步的信息,請訪問我們的產(chǎn)品官網(wǎng)獲取詳細(xì)資料。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...