混元圖生視頻 – 騰訊混元開源的圖生視頻模型
混元圖生視頻是什么
混元圖生視頻是由騰訊混元團隊推出的一款開源圖像生成視頻模型。用戶只需上傳一張圖片并簡要描述,即可生成一段時長為5秒的動態視頻。該模型具備自動化口型匹配、動作驅動和背景音效生成等多種功能,能夠應用于寫實、動漫及CGI等不同類型的角色和場景,擁有130億的參數量。混元圖生視頻模型現已在騰訊云上線,用戶可以通過混元AI視頻官網進行體驗。此外,該模型已在GitHub和HuggingFace等開發者社區開源,提供了權重、推理代碼及LoRA訓練代碼,開發者可基于此進行專屬LoRA等衍生模型的訓練。
混元圖生視頻的主要功能
- 圖像生成視頻:用戶可以通過上傳一張圖片并提供簡短描述,模型能夠將靜態圖像轉化為5秒的短視頻,并且支持自動生成背景音效。
- 音頻驅動功能:用戶上傳人物圖片后,可以輸入文本或音頻,模型將準確匹配嘴型,使圖片中的人物能夠“說話”或“唱歌”,并展現相應的面部表情。
- 動作驅動功能:用戶上傳圖片后,選擇動作模板,模型能夠讓圖片中的人物完成跳舞、揮手、做體操等動作,適用于短視頻創作、游戲角色動畫及影視制作。
- 高質量視頻輸出:支持2K高清畫質,適合多種角色與場景,包括寫實、動漫及CGI。
混元圖生視頻的技術原理
- 圖像到視頻生成框架:HunyuanVideo-I2V通過圖像潛在拼接技術,將參考圖像的信息整合到視頻生成過程中。輸入圖像經過預訓練的多模態大型語言模型(MLLM)處理,生成語義圖像token,并與視頻潛在token拼接,以實現跨模態的全注意力計算。
- 多模態大型語言模型(MLLM):該模型采用Decoder-only結構的MLLM作為文本編碼器,顯著增強了對輸入圖像語義內容的理解能力。與傳統的CLIP或T5模型相比,MLLM在圖像細節描述和復雜推理方面表現更佳,能夠更好地實現圖像與文本描述的深度融合。
- 3D變分自編碼器(3D VAE):為高效處理視頻和圖像數據,HunyuanVideo-I2V使用CausalConv3D技術訓練了一個3D VAE,將像素空間中的視頻和圖像壓縮到緊湊的潛在空間。這種設計顯著減少了后續模型中的token數量,能夠在原始分辨率和幀率下進行訓練。
- 雙流轉單流的混合模型設計:在雙流階段,視頻和文本token通過多個Transformer塊處理,避免相互干擾;在單流階段,將視頻和文本token連接起來,進行多模態信息融合。這種設計捕捉了視覺和語義信息之間的復雜交互,提升了生成視頻的連貫性和語義一致性。
- 漸進式訓練策略:模型采用漸進式訓練策略,從低分辨率、短視頻逐步過渡到高分辨率、長視頻,提高了模型的收斂速度,確保了生成視頻在不同分辨率下的高質量。
- 提示詞重寫模型:為解決用戶提示詞的語言風格和長度多變性問題,HunyuanVideo-I2V引入了提示詞重寫模塊,能夠將用戶輸入的提示詞轉換為模型更易理解的格式,提高生成效果。
- 可定制化LoRA訓練:模型支持LoRA(Low-Rank Adaptation)訓練,開發者可以通過少量數據訓練出具有特定效果的視頻生成模型,例如“頭發生長”或“人物動作”等特效。
產品官網
- Github倉庫: https://github.com/Tencent/HunyuanVideo-I2V
- Huggingface模型庫:https://huggingface.co/tencent/HunyuanVideo-I2V
- 混元AI視頻官網:騰訊混元AI視頻官網
混元圖生視頻的應用場景
- 創意視頻生成:用戶可以通過上傳圖片和描述生成富有創意的短視頻。
- 特效制作:通過LoRA訓練實現個性化特效,如頭發生長、人物動作等。
- 動畫與游戲開發:快速生成角色動畫,降作成本,提高開發效率。
常見問題
- 如何使用混元圖生視頻?用戶可以訪問騰訊混元AI視頻官網,選擇圖生視頻,上傳一張圖片并輸入簡短描述即可生成短視頻。
- 對開發者的支持有哪些?開發者可以通過騰訊云申請API接口,或在GitHub上下載開源模型進行本地部署和定制化開發。
- 硬件要求是什么?最低要求為NVIDIA顯卡,支持CUDA,顯存至少60GB(生成720p視頻),推薦80GB顯存,操作系統需為Linux。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...