
原標題:全球最大開源視頻模型Step-Video-T2V一手實測
文章來源:科技未來派
內容字數:3439字
國產AI大模型強勢來襲:階躍星辰開源雙模態模型,引領技術新潮流
近日,國內AI創業公司階躍星辰與吉利汽車集團強強聯手,聯合開源了兩款多模態大模型:Step-Video-T2V視頻生成模型和Step-Audio語音交互模型,在AI領域掀起一股熱潮。其中,Step-Video-T2V更是被官方宣稱為全球參數量最大、性能最好的開源視頻生成模型,引發廣泛關注。
Step-Video-T2V:引領視頻生成新高度
Step-Video-T2V憑借其卓越的性能,在視頻生成領域樹立了新的標桿。其四大技術特點令人矚目:
首先,它能夠直接生成最長204幀、540P分辨率的視頻,確保視頻內容的一致性和信息密度。其次,它采用高壓縮比的Video-VAE,在保證視頻重構質量的同時,將訓練和生成效率提升了驚人的64倍。再次,對DiT模型進行了深入的系統優化,確保訓練過程的高效性和穩定性。最后,它詳細介紹了完整的訓練策略,為其他研究者提供了寶貴的經驗。
為了客觀評估模型性能,階躍星辰還開源了Step-Video-T2V-Eval評測數據集,涵蓋了、風景、人物等11個內容類別,共計128個真實用戶評測問題。評測結果顯示,Step-Video-T2V在指令遵循、平滑性等方面全面超越了此前最好的開源模型。
實際測試中,Step-Video-T2V在復雜的場景描述下,例如“希區柯克式變焦鏡頭,廢棄工廠內部,神秘人物持槍從長廊盡頭迎面走來”,也能展現出優秀的鏡頭控制能力和細節處理,體現了其強大的技術實力。
Step-Audio:自然流暢的語音交互體驗
與Step-Video-T2V同時發布的Step-Audio語音交互模型,也展現了其在語音生成領域的出色表現。其反應速度快,生成的語音自然流暢,并具備一定的情商。據悉,Step-Audio還具備高質量音色復刻和角色扮演功能,未來將在影視娛樂、社交、游戲等領域大展身手。
雖然在實際測試中,Step-Audio的表現并未展現出特別驚艷之處,但這或許與其當前的版本和應用場景有關,未來仍有很大的提升空間。
開源的意義:推動中國AI技術發展
階躍星辰此次開源雙模態大模型,不僅展現了中國AI技術的蓬勃發展,更體現了其開放合作的理念。通過開源,更多開發者可以參與到模型的改進和應用中,加速AI技術的進步,最終惠及更廣泛的用戶。
這不僅是技術層面的突破,更是中國AI領域走向世界舞臺的重要一步,標志著中國力量在全球AI競賽中將扮演越來越重要的角色。
未來,我們期待看到更多像階躍星辰這樣的企業,以開放的心態,推動中國AI技術持續創新,為世界帶來更多驚喜。
聯系作者
文章來源:科技未來派
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

粵公網安備 44011502001135號