Open-Sora 代表了開源視頻生成領域的一次重大進步

原標題:完整復現Sora,Open-Sora最新技術報告發布,提供完整訓練代碼、權重及數據處理工具
文章來源:智猩猩GenAI
內容字數:12894字
Open-Sora:開源高效視頻生成模型
本文總結了Open-Sora開源視頻生成模型的研發成果,該模型能夠支持文本生成圖像、文本生成視頻以及圖像生成視頻等多種視覺生成任務。其核心在于高效的空間-時間擴散Transformer (STDiT)框架,通過解耦空間與時間的注意力機制,并結合高度壓縮的3D自編碼器,顯著提升了訓練效率和生成質量。
1. 解決的問題與提出的方案
現有的視頻生成模型在高保真視頻內容生成、靈活視頻合成及長時間視頻生成方面存在諸多挑戰。Open-Sora旨在解決這些問題,它是一個開源的視頻生成模型,支持多種視覺生成任務。通過STDiT框架解耦空間和時間注意力,并利用3D自編碼器壓縮表示,加速了訓練過程。此外,項目還提供完整的訓練代碼、模型權重及數據處理工具,方便社區發展。
2. 數據與預處理
Open-Sora使用了多個開源數據集,包括Webvid-10M、Panda-70M、HD-VG-130M、MiraData、Vript、Inter4K以及來自Pexels、Pixabay和Mixkit的視頻,以及LAION和Unsplash-lite圖像數據集。總計包含3000萬個視頻片段,總時長達8萬小時。為了確保數據質量,建立了一套完整的數據處理pipeline,包括場景檢測與視頻剪輯、高質量視頻過濾(基于美學評分和光流評分)、文本場景過濾以及視頻字幕生成(使用GPT-4V和PLLaVA)。
3. 模型架構
Open-Sora的架構基于PixArt,采用T5文本編碼器和STDiT框架。3D自編碼器用于視頻壓縮,Open-Sora 1.2版本引入了一個受OpenAI Sora啟發的視頻壓縮網絡,在時間維度上實現了4倍壓縮,提升了視頻生成流暢性。模型使用了定制化的訓練策略,包括多階段訓練和基于分桶的策略,以應對不同分辨率和長寬比的視頻。
4. 訓練策略與細節
Open-Sora的訓練過程分為三個階段:第一階段使用Webvid-10M數據集進行初步訓練;第二階段使用Panda-70M數據集進行精細化訓練;第三階段使用高質量視頻數據集進行高分辨率訓練。訓練過程中,采用了多種優化策略,例如身份損失、混合視頻長度訓練、隨機遮罩策略以及QK正則化等,以提升模型性能和訓練效率。最終模型能夠生成最長15秒、分辨率最高720p的視頻。
5. 模型適配與性能提升
Open-Sora從PixArt-Σ 2K checkpoint開始進行模型適配,通過多個階段的微調,最終實現了高效的視頻生成。適配過程包括多分辨率圖像生成訓練、QK正則化、修正流、logit-norm采樣以及新VAE的引入,顯著提升了訓練和推理效率,并增強了模型的穩定性。最終模型在VBench分數上達到行業領先水平。
6. 結論
Open-Sora是一個具有里程碑意義的開源視頻生成模型,它提供了全面的框架、高質量的數據處理工具和預訓練模型權重,并成功復現了Sora報告中的關鍵技術,實現了高質量、長時長的視頻生成。該項目推動了社區發展,并為該領域未來的研究奠定了堅實的基礎。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。

粵公網安備 44011502001135號