大視頻模型是世界模型?DeepMind/UC伯克利華人一作:預(yù)測下一幀就能改變世界
AIGC動態(tài)歡迎閱讀
原標(biāo)題:大視頻模型是世界模型?DeepMind/UC伯克利華人一作:預(yù)測下一幀就能改變世界
關(guān)鍵字:視頻,模型,任務(wù),視覺,語言
文章來源:新智元
內(nèi)容字?jǐn)?shù):12635字
內(nèi)容摘要:
新智元報道編輯:潤 好困
【新智元導(dǎo)讀】谷歌DeepMind、UC伯克利和MIT的研究人員認(rèn)為,如果用大語言模型的思路來做大視頻模型,能解決很多語言模型不擅長的問題,可能能更進(jìn)一步接近世界模型。沒人懷疑,OpenAI開年推出的史詩巨作Sora,將改變視頻相關(guān)領(lǐng)域的內(nèi)容生態(tài)。
但Google DeepMind、UC伯克利和MIT的研究人員更進(jìn)一步,在他們眼里,「大視頻模型」也許能夠像世界模型一樣,真正的做到理解我們身處的這個世界。
論文地址:https://arxiv.org/abs/2402.17139
在作者看來,視頻生成將徹底改變物理世界的決策,就像語言模型如何改變數(shù)字世界一樣。
研究人員認(rèn)為,與文本類似,視頻可以作為一個統(tǒng)一的接口,吸收互聯(lián)網(wǎng)知識并表征不同的任務(wù)。
例如,經(jīng)典的計(jì)算機(jī)視覺任務(wù)可以被視為下一代幀生成任務(wù)(next-frame generation task)。
模型可以通過生成操作視頻(例如「如何制作壽司」)來回答人們的問題,這可能比文本響應(yīng)更直觀。
視覺和算法推理也可以作為下一幀/視頻生成任務(wù)。視頻也可以統(tǒng)一不同實(shí)體(embodiment)的觀察空間(obser
原文鏈接:大視頻模型是世界模型?DeepMind/UC伯克利華人一作:預(yù)測下一幀就能改變世界
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。