原標題:今天起,漢字也能AI視頻生成了!
文章來源:科技未來派
內容字數:2893字
阿里云通義萬相2.1:AI視頻生成技術的新突破
人工智能技術日新月異,在視頻生成領域更是取得了令人矚目的進展。近日,阿里云通義萬相迎來了重磅升級,推出了其2.1版本的視頻生成模型。這一升級在視頻生成的復雜度、物理精度和藝術表現力等方面實現了全面提升,并在權威評測榜單VBench中摘得桂冠,標志著AI視頻生成技術邁向了新的高度。
VBench榜首,實力認證
VBench作為視頻生成領域的權威評測集,涵蓋了16個關鍵評分維度,對模型的整體一致性、動作流暢度、畫面穩定性等進行全方位評估。通義萬相2.1在幅度、多對象生成、空間關系等方面獲得了最高分,最終以84.7%的總分榮登榜首,其卓越性能得到了權威機構的認可。
攻克難題,精準模擬現實
精準理解和模擬物理世界是視頻生成模型的核心挑戰。以往的模型在處理大幅度和復雜的物理場景時往往力不從心,生成的視頻容易出現肢體扭曲、違背物理規律等問題。通義萬相團隊通過自研高效的VAE和DiT架構,有效增強了時空上下文關系建模能力,解決了這一難題。
突破技術瓶頸,實現更逼真、更流暢的視頻
得益于全新的架構,通義萬相2.1在生成大幅度肢體和旋轉的視頻方面表現更為穩定。即使是花樣滑冰、游泳、跳水等高難度動作,也能精準地展現肢體協調性和軌跡的合理性。此外,它還支持中文文字生成能力,并同時支持中英文文字特效生成,成為首個具備此功能的視頻生成模型,極大地拓展了其應用范圍,滿足了廣告設計、短視頻制作等領域的創作需求。
時空全注意機制與高效編解碼方案
通義萬相2.1在DiT設計中采用了時空全注意機制,能夠更準確地模擬現實世界的復雜動態。同時,引入的參數共享機制不僅提升了模型性能,還降低了訓練成本。此外,對文本嵌入的優化提升了文本可控性并減少了計算需求。在視頻VAE方面,創新的視頻編解碼方案能夠支持無限長1080P視頻的高效編解碼,為任意時長視頻的訓練提供了新的可能性。
免費開放,賦能開發者與企業
目前,通義萬相2.1模型已全面開放,用戶可在官網免費使用。個人開發者和企業用戶還可通過阿里云百煉調用通義萬相API,進一步開發更豐富的AI工具和應用,共同探索AI視頻生成技術的無限可能。
結語
通義萬相2.1的發布,不僅是阿里云在AI領域的一次重大突破,也為AI視頻生成技術的發展樹立了新的標桿。相信隨著技術的不斷進步,AI將為我們帶來更加精彩紛呈的視頻內容,改變我們創作和體驗世界的方式。
聯系作者
文章來源:科技未來派
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破