Step-Video-T2V – 階躍星辰開源的文本到視頻模型
Step-Video-T2V 是由階躍星辰團隊開發(fā)的開源文本到視頻生成預(yù)訓(xùn)練模型,具備 300 億參數(shù),能夠生成高達 204 幀的高質(zhì)量視頻。此模型基于深度壓縮的變分自編碼器(Video-VAE),實現(xiàn)了 16×16 的空間壓縮和 8× 的時間壓縮,顯著提高了訓(xùn)練與推理的效率。
Step-Video-T2V是什么
Step-Video-T2V 是一款由階躍星辰團隊推出的開源文本到視頻生成的預(yù)訓(xùn)練模型。它擁有 300 億個參數(shù),能夠生成長達 204 幀的高質(zhì)量視頻。該模型采用了深度壓縮的變分自編碼器(Video-VAE)架構(gòu),能夠?qū)崿F(xiàn) 16×16 的空間壓縮和 8× 的時間壓縮,從而大幅提升了訓(xùn)練和推理的效率。此外,Step-Video-T2V 配備了雙語文本編碼器,支持中英文提示輸入,并通過直接偏好優(yōu)化(DPO)方法進一步提升視頻生成的質(zhì)量。該模型基于擴散的 Transformer(DiT)架構(gòu)和 3D 全注意力機制,在生成具有豐富動態(tài)和高美學(xué)質(zhì)量的視頻方面表現(xiàn)尤為突出。
Step-Video-T2V的主要功能
- 高質(zhì)量視頻生成:Step-Video-T2V 具備 300 億參數(shù),能夠生成長達 204 幀的高質(zhì)量視頻,支持 544×992 的分辨率。
- 雙語文本支持:內(nèi)置雙語文本編碼器,能直接處理中文和英文提示,生成與文本描述一致的視頻內(nèi)容。
- 動態(tài)與美學(xué)優(yōu)化:采用 3D 全注意力的 DiT 架構(gòu)和 Flow Matching 訓(xùn)練方法,生成具有強烈效果和卓越美學(xué)的視頻。
Step-Video-T2V的技術(shù)原理
- 深度壓縮的變分自編碼器(Video-VAE):Step-Video-T2V 采用深度壓縮的變分自編碼器(Video-VAE),實現(xiàn) 16×16 的空間壓縮和 8× 的時間壓縮,有效降低了視頻生成任務(wù)的計算復(fù)雜度,同時保持了出色的視頻重建質(zhì)量。
- 雙語文本編碼器:模型配備兩個預(yù)訓(xùn)練的雙語文本編碼器,能夠理解中文和英文提示,從而生成符合文本描述的視頻。
- 基于擴散的 Transformer(DiT)架構(gòu):Step-Video-T2V 基于擴散的 Transformer(DiT)架構(gòu),結(jié)合 3D 全注意力機制,通過 Flow Matching 訓(xùn)練逐步去噪輸入噪聲,生成潛在幀,利用文本嵌入和時間步作為條件因子,展現(xiàn)出色的動態(tài)和美學(xué)質(zhì)量。
- 直接偏好優(yōu)化(DPO):為提升生成視頻品質(zhì),Step-Video-T2V 引入視頻直接偏好優(yōu)化(Video-DPO)方法,利用人類偏好數(shù)據(jù)對模型進行微調(diào),降低偽影并增強視覺效果,使生成的視頻更加流暢和真實。
- 級聯(lián)訓(xùn)練策略:模型采用級聯(lián)訓(xùn)練流程,包括文本到圖像(T2I)預(yù)訓(xùn)練、文本到視頻/圖像(T2VI)預(yù)訓(xùn)練、文本到視頻(T2V)微調(diào)及直接偏好優(yōu)化(DPO)訓(xùn)練,促進模型快速收斂,充分利用不同質(zhì)量的視頻數(shù)據(jù)。
- 系統(tǒng)優(yōu)化:在系統(tǒng)層面,Step-Video-T2V 進行了優(yōu)化,包括張量并行、序列并行和 Zero1 優(yōu)化,確保高效的分布式訓(xùn)練。引入高性能通信框架 StepRPC 和雙層監(jiān)控系統(tǒng) StepTelemetry,以優(yōu)化數(shù)據(jù)傳輸效率和識別性能瓶頸。
Step-Video-T2V的項目地址
- Github倉庫:https://github.com/stepfun-ai/Step-Video-T2V
- HuggingFace模型庫:https://huggingface.co/stepfun-ai/stepvideo-t2v
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.10248
Step-Video-T2V的應(yīng)用場景
- 視頻內(nèi)容創(chuàng)作:Step-Video-T2V 可根據(jù)文本提示快速生成創(chuàng)意視頻,幫助創(chuàng)作者節(jié)省時間和精力,降低視頻制作的門檻。
- 廣告制作:能夠為品牌和廣告商生成個性化的視頻廣告內(nèi)容,提升廣告的吸引力和傳播效果。
- 教育與培訓(xùn):可生成教學(xué)視頻,幫助學(xué)生更好地理解和記憶知識內(nèi)容。
- 娛樂與影視:為影視制作提供創(chuàng)意素材,輔助生成特效、動畫或短劇片段,加速創(chuàng)作流程。
- 社交媒體:Step-Video-T2V 為用戶提供個性化的視頻生成工具,豐富社交平臺的內(nèi)容生態(tài),提升用戶互動性。生成的視頻可用于社交媒體的創(chuàng)意內(nèi)容分享。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...