<rt id="2us2k"></rt>

Step-Video-T2V

AI工具3個月前更新 AI工具集

441 0 0

Step-Video-T2V – 階躍星辰開源的文本到視頻模型

Step-Video-T2V 是由階躍星辰團隊開發(fā)的開源文本到視頻生成預(yù)訓(xùn)練模型，具備 300 億參數(shù)，能夠生成高達 204 幀的高質(zhì)量視頻。此模型基于深度壓縮的變分自編碼器（Video-VAE），實現(xiàn)了 16×16 的空間壓縮和 8× 的時間壓縮，顯著提高了訓(xùn)練與推理的效率。

Step-Video-T2V是什么

Step-Video-T2V 是一款由階躍星辰團隊推出的開源文本到視頻生成的預(yù)訓(xùn)練模型。它擁有 300 億個參數(shù)，能夠生成長達 204 幀的高質(zhì)量視頻。該模型采用了深度壓縮的變分自編碼器（Video-VAE）架構(gòu)，能夠?qū)崿F(xiàn) 16×16 的空間壓縮和 8× 的時間壓縮，從而大幅提升了訓(xùn)練和推理的效率。此外，Step-Video-T2V 配備了雙語文本編碼器，支持中英文提示輸入，并通過直接偏好優(yōu)化（DPO）方法進一步提升視頻生成的質(zhì)量。該模型基于擴散的 Transformer（DiT）架構(gòu)和 3D 全注意力機制，在生成具有豐富動態(tài)和高美學(xué)質(zhì)量的視頻方面表現(xiàn)尤為突出。

Step-Video-T2V

Step-Video-T2V的主要功能

高質(zhì)量視頻生成：Step-Video-T2V 具備 300 億參數(shù)，能夠生成長達 204 幀的高質(zhì)量視頻，支持 544×992 的分辨率。
雙語文本支持：內(nèi)置雙語文本編碼器，能直接處理中文和英文提示，生成與文本描述一致的視頻內(nèi)容。
動態(tài)與美學(xué)優(yōu)化：采用 3D 全注意力的 DiT 架構(gòu)和 Flow Matching 訓(xùn)練方法，生成具有強烈效果和卓越美學(xué)的視頻。

Step-Video-T2V的技術(shù)原理

深度壓縮的變分自編碼器（Video-VAE）：Step-Video-T2V 采用深度壓縮的變分自編碼器（Video-VAE），實現(xiàn) 16×16 的空間壓縮和 8× 的時間壓縮，有效降低了視頻生成任務(wù)的計算復(fù)雜度，同時保持了出色的視頻重建質(zhì)量。
雙語文本編碼器：模型配備兩個預(yù)訓(xùn)練的雙語文本編碼器，能夠理解中文和英文提示，從而生成符合文本描述的視頻。
基于擴散的 Transformer（DiT）架構(gòu)：Step-Video-T2V 基于擴散的 Transformer（DiT）架構(gòu)，結(jié)合 3D 全注意力機制，通過 Flow Matching 訓(xùn)練逐步去噪輸入噪聲，生成潛在幀，利用文本嵌入和時間步作為條件因子，展現(xiàn)出色的動態(tài)和美學(xué)質(zhì)量。
直接偏好優(yōu)化（DPO）：為提升生成視頻品質(zhì)，Step-Video-T2V 引入視頻直接偏好優(yōu)化（Video-DPO）方法，利用人類偏好數(shù)據(jù)對模型進行微調(diào)，降低偽影并增強視覺效果，使生成的視頻更加流暢和真實。
級聯(lián)訓(xùn)練策略：模型采用級聯(lián)訓(xùn)練流程，包括文本到圖像（T2I）預(yù)訓(xùn)練、文本到視頻/圖像（T2VI）預(yù)訓(xùn)練、文本到視頻（T2V）微調(diào)及直接偏好優(yōu)化（DPO）訓(xùn)練，促進模型快速收斂，充分利用不同質(zhì)量的視頻數(shù)據(jù)。
系統(tǒng)優(yōu)化：在系統(tǒng)層面，Step-Video-T2V 進行了優(yōu)化，包括張量并行、序列并行和 Zero1 優(yōu)化，確保高效的分布式訓(xùn)練。引入高性能通信框架 StepRPC 和雙層監(jiān)控系統(tǒng) StepTelemetry，以優(yōu)化數(shù)據(jù)傳輸效率和識別性能瓶頸。

Step-Video-T2V的項目地址

Github倉庫：https://github.com/stepfun-ai/Step-Video-T2V
HuggingFace模型庫：https://huggingface.co/stepfun-ai/stepvideo-t2v
arXiv技術(shù)論文：https://arxiv.org/pdf/2502.10248

Step-Video-T2V的應(yīng)用場景

視頻內(nèi)容創(chuàng)作：Step-Video-T2V 可根據(jù)文本提示快速生成創(chuàng)意視頻，幫助創(chuàng)作者節(jié)省時間和精力，降低視頻制作的門檻。
廣告制作：能夠為品牌和廣告商生成個性化的視頻廣告內(nèi)容，提升廣告的吸引力和傳播效果。
教育與培訓(xùn)：可生成教學(xué)視頻，幫助學(xué)生更好地理解和記憶知識內(nèi)容。
娛樂與影視：為影視制作提供創(chuàng)意素材，輔助生成特效、動畫或短劇片段，加速創(chuàng)作流程。
社交媒體：Step-Video-T2V 為用戶提供個性化的視頻生成工具，豐富社交平臺的內(nèi)容生態(tài)，提升用戶互動性。生成的視頻可用于社交媒體的創(chuàng)意內(nèi)容分享。

閱讀原文