谷歌Genie爆打Sora,基礎(chǔ)世界模型AGI來(lái)了?一張草圖即生一個(gè)世界,通才智能體迎來(lái)新
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:谷歌Genie爆打Sora,基礎(chǔ)世界模型AGI來(lái)了?一張草圖即生一個(gè)世界,通才智能體迎來(lái)新
關(guān)鍵字:模型,動(dòng)作,視頻,世界,研究人員
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):9400字
內(nèi)容摘要:
新智元報(bào)道編輯:編輯部
【新智元導(dǎo)讀】真正的「基礎(chǔ)世界模型」誕生了!谷歌團(tuán)隊(duì)發(fā)布110億參數(shù)Genie「精靈」,從一張圖片就能創(chuàng)造出可玩的虛擬世界,動(dòng)作可控碾壓Sora。網(wǎng)友驚嘆,AI已經(jīng)殺到視頻游戲領(lǐng)域了。就在昨天,谷歌DeepMind重磅發(fā)布了一個(gè)基礎(chǔ)世界模型——Genie「精靈」。
從一個(gè)圖像,一張照片,一個(gè)草圖中,它就能生成一個(gè)無(wú)窮無(wú)盡的世界。
當(dāng)紅炸子雞Sora雖然創(chuàng)造了令人驚嘆的場(chǎng)景,但它們的動(dòng)作并非可控。
而Genie將成為游戲規(guī)則的改變者,創(chuàng)造的虛擬場(chǎng)景可以像電子游戲一樣進(jìn)行互動(dòng)。
論文地址:https://arxiv.org/abs/2301.07608
Genie的瘋狂之處在于,學(xué)習(xí)了20萬(wàn)小時(shí)的未標(biāo)注互聯(lián)網(wǎng)視頻,無(wú)需監(jiān)督即可訓(xùn)練。
無(wú)需任何動(dòng)作標(biāo)注,便可以確定誰(shuí)是主角,并讓用戶能夠在生成的世界中對(duì)其控制。
憑借110億參數(shù),Genie確立了自己作為基礎(chǔ)世界模型的地位
具體來(lái)說(shuō),它是通過(guò)潛動(dòng)作(latent action)模型、視頻分詞器,以及自回歸動(dòng)態(tài)模型三大核心組件來(lái)實(shí)現(xiàn)的。
由此產(chǎn)生的學(xué)習(xí)潛動(dòng)作空間,不僅使用戶交互成為可能,而且還有助于訓(xùn)練智能體模仿看不見的
原文鏈接:谷歌Genie爆打Sora,基礎(chǔ)世界模型AGI來(lái)了?一張草圖即生一個(gè)世界,通才智能體迎來(lái)新
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。