首個(gè)Sora逆向工程論文發(fā)布!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:首個(gè)Sora逆向工程論文發(fā)布!
關(guān)鍵字:報(bào)告,模型,視頻,印本,視覺(jué)
文章來(lái)源:智東西
內(nèi)容字?jǐn)?shù):77016字
內(nèi)容摘要:
Sora深度論文綜述中文版。
作者|城主
寫(xiě)在前面:來(lái)自理海大學(xué)和微軟研究院的研究團(tuán)隊(duì)本周二發(fā)布了Sora的深度論文綜述。這里和關(guān)心Sora的同學(xué)們分享本城翻譯制作的中文版(全文3.4萬(wàn)字)
英文原版?zhèn)魉烷T(mén):
https://arxiv.org/pdf/2402.17177v1.pdf
Sora:大型視覺(jué)模型的背景、技術(shù)、局限性和機(jī)遇綜述
Yixin Liu1* Kai Zhang1* Yuan Li1* Zhiling Yan1* Chujie Gao1*
Ruoxi Chen1* Zhengqing Yuan1* Yue Huang1Hanchi Sun1
Jianfeng Gao2 Lifang He1 Lichao Sun1?
1理海大學(xué)2微軟研究院
摘要
Sora是一款由OpenAI在2024年2月發(fā)布的文本到視頻生成的AI模型。該模型被訓(xùn)練用于根據(jù)文本指令生成現(xiàn)實(shí)或想象場(chǎng)景的視頻,并展現(xiàn)出模擬物理世界的潛力。基于公開(kāi)的技術(shù)報(bào)告和逆向工程,本文對(duì)該模型的背景、相關(guān)技術(shù)、應(yīng)用、現(xiàn)存挑戰(zhàn)和文本到視頻AI模型的未來(lái)方向進(jìn)行了全面的綜述。我們首先追溯Sora的發(fā)展,并探究用于構(gòu)建這一
聯(lián)系作者
文章來(lái)源:智東西
作者微信:zhidxcom
作者簡(jiǎn)介:智能產(chǎn)業(yè)新媒體!智東西專注報(bào)道人工智能主導(dǎo)的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來(lái)的千行百業(yè)產(chǎn)業(yè)升級(jí)。聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。