Phenaki
Phenaki是Google上個(gè)月公布的兩個(gè)文字轉(zhuǎn)影片的AI模型,前者強(qiáng)調(diào)具有深刻語(yǔ)言理解能力,能生成相片等級(jí)影片,而後者則能將多段文字提示合成長(zhǎng)度較長(zhǎng)、包含不同場(chǎng)景的影片。
標(biāo)簽:AI賦能 AI趣站AI語(yǔ)音 免費(fèi)文本轉(zhuǎn)語(yǔ)音 文字轉(zhuǎn)影片 文字轉(zhuǎn)影片的AI模型 文本轉(zhuǎn)MP3 文本轉(zhuǎn)語(yǔ)音 文本轉(zhuǎn)音頻 語(yǔ)音合成器 語(yǔ)音生成器Imagen、Phenaki是Google上個(gè)月公布的兩個(gè)文字轉(zhuǎn)影片的AI模型,前者強(qiáng)調(diào)具有深刻語(yǔ)言理解能力,能生成相片等級(jí)影片,而後者則能將多段文字提示合成長(zhǎng)度較長(zhǎng)、包含不同場(chǎng)景的影片。不同於Imagen僅能生成數(shù)秒影片,Phenaki則可生成長(zhǎng)數(shù)分鐘的影片。
Imagen將透過(guò)AI Test Kitchen App開(kāi)放給美、英、加拿大、澳洲、紐西蘭及肯亞的英語(yǔ)用戶測(cè)試。Google 8月宣布AI Test Kitchen App,主要用於測(cè)試Google AI技術(shù)。Google第一批測(cè)試的技術(shù)是對(duì)話AI模型LaMDA(Language Model for Dialogue Applications)。
我們介紹了 Phenaki,這是一種能夠在給定一系列文本提示的情況下進(jìn)行逼真的視頻合成的模型。由于計(jì)算成本、高質(zhì)量文本視頻數(shù)據(jù)的數(shù)量有限以及視頻長(zhǎng)度可變,從文本生成視頻尤其具有挑戰(zhàn)性。為了解決這些問(wèn)題,我們引入了一種用于學(xué)習(xí)視頻表示的新因果模型,該模型將視頻壓縮為離散標(biāo)記的小型表示。這個(gè)分詞器及時(shí)使用因果注意力,這使得它可以處理可變長(zhǎng)度的視頻。為了從文本生成視頻標(biāo)記,我們使用了一個(gè)以預(yù)先計(jì)算的文本標(biāo)記為條件的雙向屏蔽轉(zhuǎn)換器。生成的視頻令牌隨后被去令牌化以創(chuàng)建實(shí)際視頻。為了解決數(shù)據(jù)問(wèn)題,我們展示了對(duì)大量圖像文本對(duì)以及較少數(shù)量的視頻文本示例的聯(lián)合訓(xùn)練如何產(chǎn)生超出視頻數(shù)據(jù)集中可用內(nèi)容的泛化。與之前的視頻生成方法相比,Phenaki 可以在開(kāi)放域中以一系列提示(即時(shí)間可變文本或故事)為條件生成任意長(zhǎng)視頻。據(jù)我們所知,這是第一次有論文研究從時(shí)間變量提示生成視頻。此外,所提出的視頻編碼器-解碼器在時(shí)空質(zhì)量和每個(gè)視頻的令牌數(shù)量方面優(yōu)于文獻(xiàn)中當(dāng)前使用的所有每幀基線。Phenaki 可以根據(jù)開(kāi)放域中的一系列提示(即時(shí)間可變文本或故事)生成任意長(zhǎng)視頻。據(jù)我們所知,這是第一次有論文研究從時(shí)間變量提示生成視頻。此外,所提出的視頻編碼器-解碼器在時(shí)空質(zhì)量和每個(gè)視頻的令牌數(shù)量方面優(yōu)于文獻(xiàn)中當(dāng)前使用的所有每幀基線。Phenaki 可以根據(jù)開(kāi)放域中的一系列提示(即時(shí)間可變文本或故事)生成任意長(zhǎng)視頻。據(jù)我們所知,這是第一次有論文研究從時(shí)間變量提示生成視頻。此外,所提出的視頻編碼器-解碼器在時(shí)空質(zhì)量和每個(gè)視頻的令牌數(shù)量方面優(yōu)于文獻(xiàn)中當(dāng)前使用的所有每幀基線。
數(shù)據(jù)評(píng)估
本站OpenI提供的Phenaki都來(lái)源于網(wǎng)絡(luò),不保證外部鏈接的準(zhǔn)確性和完整性,同時(shí),對(duì)于該外部鏈接的指向,不由OpenI實(shí)際控制,在2023年 5月 8日 下午5:35收錄時(shí),該網(wǎng)頁(yè)上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁(yè)的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除,OpenI不承擔(dān)任何責(zé)任。



粵公網(wǎng)安備 44011502001135號(hào)