Hugging Face CEO轉發支持。
原標題:DeepSeek迎最強隊友!國產大模型開源猛踩油門,全球第一,免費可用,技術報告公開
文章來源:智東西
內容字數:4301字
中國AI開源勢力崛起:階躍星辰開源全球最大參數量開源文生視頻模型
近日,中國AI大模型廠商階躍星辰與吉利汽車集團聯合開源了兩款Step系列多模態大模型:Step-Video-T2和Step-Audio。這一舉動得到了Hugging Face CEO的轉發支持,標志著中國AI開源勢力進一步崛起。
1. Step-Video-T2:全球參數量最大的開源文生視頻模型
Step-Video-T2擁有300億參數,是目前全球參數量最大的開源文生視頻大模型。它能夠生成最長204幀、540P分辨率的視頻,并展現出較強的語義理解和指令遵循能力,可以還原復雜的和運鏡要求。該模型采用了高壓縮比的Video-VAE模型,顯著提高了訓練和生成效率。此外,它還利用雙語文本編碼器處理中英文提示,并優化了基于流匹配的DIT架構和Video-DPO算法,提升了視頻生成質量。階躍星辰還開源了用于評估文生視頻質量的新基準數據集Step-Video-T2V-Eval。
2. Step-Audio:高效的語音交互模型
Step-Audio語音交互模型能夠根據不同場景需求生成各種風格的語音,并支持語音識別、語義理解、對話、語音克隆、音頻編輯和語音合成。它在多個主流公開測試集中性能排名第一,并解決了現有級聯架構語音交互系統存在的延遲、錯誤傳播等問題。階躍星辰還開源了高效的Step-Audio-TTS-3B模型和多維度評估體系StepEval-Audio-360基準測試。
3. 開源的意義和影響
階躍星辰開源Step系列模型,旨在分享技術成果,推動多模態模型技術發展,并促進產業落地。 其采用MIT開源協議,與DeepSeek一致。這一舉動在DeepSeek掀起的開源浪潮之后,進一步壯大了中國AI開源勢力,為開發者提供了更多機會,加速了AI技術創新。
4. 模型性能及局限
雖然Step-Video-T2在生成復雜和畫面細節方面表現出色,但在處理高難度動作(例如跳水)時,仍存在一些肢體扭曲等問題。 這體現了當前文生視頻技術仍處于發展階段。
5. 總結
階躍星辰開源Step系列模型是推動中國AI開源生態發展的重要一步,其高性能模型和開源數據集將為AI社區帶來巨大貢獻,并有望加速多模態AI技術的應用和發展。
聯系作者
文章來源:智東西
作者微信:
作者簡介:智能產業新媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。