字節(jié)視頻大模型比賽！無縫鏡頭切換，運(yùn)鏡技巧拉滿，音樂創(chuàng)作和翻譯也實(shí)現(xiàn)了

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布智東西

字節(jié)視頻大模型殺死比賽！無縫鏡頭切換，運(yùn)鏡技巧拉滿，音樂創(chuàng)作和翻譯自由也實(shí)現(xiàn)了

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：字節(jié)視頻大模型比賽！無縫鏡頭切換，運(yùn)鏡技巧拉滿，音樂創(chuàng)作和翻譯也實(shí)現(xiàn)了
關(guān)鍵字：模型,字節(jié)跳動(dòng),豆包,視頻,快手
文章來源：智東西
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

豆包大模型兇猛上新：輕松創(chuàng)作電影質(zhì)感大片、歌曲，同音色翻譯趕超人類同傳。
作者|程茜
編輯|云鵬
智東西9月24日?qǐng)?bào)道，今天，字節(jié)的視頻生成大模型首次亮相，分分鐘化身超級(jí)導(dǎo)演，鏡頭切換、電影質(zhì)感、多主體交互都能輕松拿捏；其通用模型Pro綜合能力提升25%，初始TPM（每分鐘處理Tokens數(shù)量）支持800k，高于業(yè)界其他模型。
這些都是今天字節(jié)跳動(dòng)豆包大模型家族的重磅更新，連添了視頻、音樂、同聲傳譯三大新成員；還有文生圖模型優(yōu)化了六類復(fù)雜生成，語音合成模型可混合數(shù)百種音色……
其中的重磅發(fā)布莫過于視頻生成模型，這意味著繼快手后，另一大短視頻巨頭字節(jié)（抖音集團(tuán)）也正式進(jìn)軍AI視頻生成賽道。
豆包的視頻生成模型可以實(shí)現(xiàn)對(duì)復(fù)雜指令的理解和遵循，平滑實(shí)現(xiàn)鏡頭的變焦、環(huán)繞、縮放，保持多鏡頭切換的一致性以及多尺寸、多風(fēng)格生成。據(jù)火山引擎總裁譚待透露，該模型會(huì)在國慶節(jié)之后上線到火山方舟平臺(tái)。
它可以根據(jù)提示詞生成電影質(zhì)感的畫面：
超現(xiàn)實(shí)的提示詞也能輕松應(yīng)對(duì)，如有翅膀的青蛙、浮空小島中生長的樹等：
在真實(shí)使用場景中，人們往往需要不同比例或者尺寸大小的視頻，該模型可以滿足多比例、多尺寸的視頻生成：
即使

原文鏈接：字節(jié)視頻大模型比賽！無縫鏡頭切換，運(yùn)鏡技巧拉滿，音樂創(chuàng)作和翻譯也實(shí)現(xiàn)了