國(guó)產(chǎn)地表最強(qiáng)視頻模型震驚歪果仁,官方現(xiàn)場(chǎng)搖人30s直出!視覺模型進(jìn)入上下文時(shí)代
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:國(guó)產(chǎn)地表最強(qiáng)視頻模型震驚歪果仁,官方現(xiàn)場(chǎng)搖人30s直出!視覺模型進(jìn)入上下文時(shí)代
關(guān)鍵字:模型,主體,顯著特征,視頻,場(chǎng)景
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:編輯部 HYZ
【新智元導(dǎo)讀】全球首個(gè)支持多主體一致性的多模態(tài)模型,剛剛誕生!Vidu 1.5一上線,全網(wǎng)網(wǎng)友都震驚了:LLM獨(dú)有的上下文學(xué)習(xí)優(yōu)勢(shì),視覺模型居然也有了。來(lái)自中國(guó)的視頻生成模型,再一次震驚了全球大模型圈。
生數(shù)科技推出的Vidu 1.5,成為世界首個(gè)支持多主體一致性的多模態(tài)模型!
上傳小哥、機(jī)甲、街景,接下來(lái),就是見證奇跡的時(shí)刻。
人、物、環(huán)境,被天衣無(wú)縫地融合到了同一個(gè)視頻中,簡(jiǎn)直令人驚嘆。
這種方法,顛覆了LoRA等傳統(tǒng)的單點(diǎn)微調(diào)方法,標(biāo)志著視頻模型統(tǒng)一理解和生成的飛躍!
多模態(tài)人工智能,從此有了新標(biāo)準(zhǔn)。
與諸多漫長(zhǎng)期貨的視頻模型不同,Vidu只要不到30s,就能生成一段視頻了!
外國(guó)友人直接原地驚掉下巴:機(jī)甲跟原圖一模一樣,這絕對(duì)是最穩(wěn)定的視頻模型;有人更是言簡(jiǎn)意賅地給出評(píng)價(jià):生數(shù)科技是名副其實(shí)的游戲規(guī)則改變者。
只要上傳多個(gè)角色、物體和地點(diǎn)的圖片,就能立即生成每個(gè)物體一致的場(chǎng)景,人手制作一部大片的時(shí)代真的來(lái)了嗎?左右滑動(dòng)查看踴躍的網(wǎng)友們,在評(píng)論區(qū)紛紛貼出了自己的腦洞素材。左右滑動(dòng)查看而霸氣的官號(hào)直接在評(píng)論區(qū)隨機(jī)搖人,抽中的網(wǎng)友提供的素材,果然誕生
原文鏈接:國(guó)產(chǎn)地表最強(qiáng)視頻模型震驚歪果仁,官方現(xiàn)場(chǎng)搖人30s直出!視覺模型進(jìn)入上下文時(shí)代
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介: