今天起,漢字也能AI視頻生成了!《滕王閣序》直接拿捏到位了
新版通義萬相來了

原標(biāo)題:今天起,漢字也能AI視頻生成了!《滕王閣序》直接拿捏到位了
文章來源:量子位
內(nèi)容字?jǐn)?shù):5650字
阿里通義萬相2.1:AI視頻生成新突破,漢字也能輕松駕馭
阿里巴巴通義萬相最新升級的2.1版本(包含極速版和專業(yè)版)在AI視頻生成領(lǐng)域取得了顯著突破,尤其是在處理漢字方面展現(xiàn)出全球領(lǐng)先的能力。文章詳細(xì)介紹了該模型的各項新功能和技術(shù)創(chuàng)新,并通過多個案例展示其強大的視頻生成能力。
1. 漢字生成能力的突破
通義萬相2.1能夠流暢地生成包含漢字的視頻,無論是簡單的單個漢字,還是復(fù)雜的句子,甚至包含大量文字的場景,都能精準(zhǔn)還原。文章以“福”字、 “量子位”等例子,展示了模型在不同風(fēng)格(古風(fēng)、賽博朋克、水彩插畫等)下的出色表現(xiàn),并指出即使是復(fù)雜的語句如“摸魚一天 快樂無邊”,模型也能較好地完成,雖然存在細(xì)微瑕疵。
2. 復(fù)雜動作和物理規(guī)律的精準(zhǔn)還原
以往AI視頻生成在處理復(fù)雜人物動作時常出現(xiàn)失真現(xiàn)象,而通義萬相2.1則顯著改善了這種情況。文章通過霹靂舞和跳水等案例,展示了模型在處理高難度、連續(xù)性動作時的穩(wěn)定性和精準(zhǔn)度,甚至連跳水員腳背等細(xì)節(jié)都能清晰展現(xiàn)。此外,模型對物理規(guī)律的還原也相當(dāng)出色,例如切肉場景中肉塊分離、刀面鏡像、底部油脂等細(xì)節(jié)都得到了體現(xiàn),以及對《滕王閣序》中意境的精準(zhǔn)把握。
3. 運鏡和風(fēng)格控制能力
通義萬相2.1不僅能夠生成高質(zhì)量的畫面,還具備優(yōu)秀的運鏡能力,可以根據(jù)用戶的需求,靈活運用各種運鏡技巧,營造出不同的氛圍和視覺效果。文章中“狐大仙蹦迪”和“山谷跑車”的例子,充分展現(xiàn)了模型在運鏡方面的能力。同時,該模型還支持多種風(fēng)格的視頻生成,例如中世紀(jì)真人寫實風(fēng)格和卡通動畫風(fēng)格,并可選擇不同的視頻尺寸。
4. 技術(shù)創(chuàng)新:三步走策略
通義萬相2.1的成功并非偶然,其背后是阿里團(tuán)隊在技術(shù)上的三大創(chuàng)新:首先是VAE與DiT架構(gòu)的協(xié)同,VAE負(fù)責(zé)高效壓縮視頻信息,DiT負(fù)責(zé)捕捉時空動態(tài);其次是超長序列訓(xùn)練的突破,通過4D并行策略提升訓(xùn)練效率和穩(wěn)定性;最后是數(shù)據(jù)與評估雙輪驅(qū)動,構(gòu)建高質(zhì)量數(shù)據(jù)集并建立完善的評估體系。
5. 總結(jié)
通義萬相2.1在AI視頻生成領(lǐng)域取得了令人矚目的成就,其漢字生成能力更是全球領(lǐng)先。通過技術(shù)創(chuàng)新和持續(xù)優(yōu)化,該模型在視頻質(zhì)量、動作捕捉、物理規(guī)律還原、運鏡技巧等方面都達(dá)到了新的高度,標(biāo)志著國產(chǎn)AI視頻生成技術(shù)達(dá)到了國際先進(jìn)水平。目前該模型已上線,用戶可以免費在線體驗。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號