OpenAISora 從文本創(chuàng)建視頻官網(wǎng)
sora是一個AI模型,可以從文本指令中創(chuàng)建逼真和富有想象力的場景。
網(wǎng)站服務(wù):視頻,視頻,OpenAISora從文本創(chuàng)建視頻,Ai導(dǎo)航。
OpenAISora 從文本創(chuàng)建視頻簡介
我們正在教人工智能理解和模擬中的物理世界,目標(biāo)是訓(xùn)練模型,幫助人們解決需要現(xiàn)實(shí)世界交互的問題。
介紹索拉,我們的文本到視頻模型。索拉可以生成長達(dá)一分鐘的視頻,同時保持視覺質(zhì)量和遵守用戶的提示。
今天,索拉可以被紅隊(duì)隊(duì)員用來評估危險區(qū)域的傷害或風(fēng)險。我們還允許一些視覺藝術(shù)家、設(shè)計師和電影制作人訪問,以獲得有關(guān)如何推進(jìn)模型以最有助于創(chuàng)意專業(yè)人士的反饋。
我們很早就分享了我們的研究進(jìn)展,開始與OpenAI之外的人合作并從他們那里獲得反饋,并讓公眾給予一種即將到來的AI功能的感覺。
索拉能夠生成具有多個角色、特定類型以及主體和背景的精確細(xì)節(jié)的復(fù)雜場景。該模型不僅理解用戶在提示中要求的內(nèi)容,還理解這些內(nèi)容在物理世界中的存在方式。
該模型對語言有著深刻的理解,使其能夠準(zhǔn)確地解釋提示并生成表達(dá)充滿活力的情感的引人注目的人物。索拉還可以在一個生成的視頻中創(chuàng)建多個鏡頭,準(zhǔn)確地保持人物和視覺風(fēng)格。
目前的模式存在缺陷。它可能難以準(zhǔn)確地模擬復(fù)雜場景的物理特性,并且可能無法理解因果關(guān)系的特定實(shí)例。例如,一個人可能咬了一口餅干,但后來,餅干可能沒有咬痕。
該模型還可能混淆提示的空間細(xì)節(jié),例如,混淆左和右,并且可能難以精確描述隨時間發(fā)生的,例如遵循特定的相機(jī)軌跡。
安全
We’ll be taking several important safety steps ahead of making Sora available in OpenAI’s products. We are working with red teamers?—?domain experts in areas like misinformation, hateful content, and bias?—?who will be adversarially testing the model.
在OpenAI的產(chǎn)品中提供索拉之前,我們將采取幾個重要的安全措施。我們正在與紅色團(tuán)隊(duì)合作,他們是錯誤信息、仇恨內(nèi)容和偏見等領(lǐng)域的專家,他們將對模型進(jìn)行對抗。????
We’re also building tools to help detect misleading content such as a detection classifier that can tell when a video was generated by Sora. We plan to include?C2PA metadata?in the future if we deploy the model in an OpenAI product.
我們還在構(gòu)建工具來幫助檢測誤導(dǎo)性內(nèi)容,例如檢測分類器,它可以判斷視頻是由索拉生成的。如果我們在OpenAI產(chǎn)品中部署該模型,我們計劃在未來包含C2PA元數(shù)據(jù)。
In addition to us developing new techniques to prepare for deployment, we’re leveraging the?existing safety methods?that we built for our products that use DALL·E 3, which are applicable to Sora as well.
除了開發(fā)新技術(shù)為部署做準(zhǔn)備外,我們還利用了為使用DALL·E 3的產(chǎn)品構(gòu)建的現(xiàn)有安全方法,這些方法也適用于索拉。
For example, once in an OpenAI product, our text classifier will check and reject text input prompts that are in violation of our usage policies, like those that request extreme violence, sexual content, hateful imagery, celebrity likeness, or the IP of others. We’ve also developed robust image classifiers that are used to review the frames of every video generated to help ensure that it adheres to our usage policies, before it’s shown to the user.
例如,在OpenAI產(chǎn)品中,我們的文本分類器將檢查并拒絕違反我們使用政策的文本輸入提示,例如要求極端暴力,性內(nèi)容,仇恨圖像,名人肖像或其他人的IP。我們還開發(fā)了強(qiáng)大的圖像分類器,用于審查生成的每個視頻的幀,以幫助確保它符合我們的使用策略,然后才向用戶顯示。
We’ll be engaging policymakers, educators and artists around the world to understand their concerns and to identify positive use cases for this new technology. Despite extensive research and testing, we cannot predict all of the beneficial ways people will use our technology, nor all the ways people will abuse it. That’s why we believe that learning from real-world use is a critical component of creating and releasing increasingly safe AI systems over time.
我們將與世界各地的政策制定者、教育工作者和藝術(shù)家合作,了解他們的擔(dān)憂,并確定這項(xiàng)新技術(shù)的積極用例。盡管進(jìn)行了廣泛的研究和測試,但我們無法預(yù)測人們使用我們技術(shù)的所有有益方式,也無法預(yù)測人們?yōu)E用我們技術(shù)的所有方式。這就是為什么我們認(rèn)為,隨著時間的推移,從現(xiàn)實(shí)世界的使用中學(xué)習(xí)是創(chuàng)建和發(fā)布越來越安全的人工智能系統(tǒng)的關(guān)鍵組成部分。
技術(shù)
Sora is a diffusion model, which generates a video by starting off with one that looks like static noise and gradually transforms it by removing the noise over many steps.
索拉是一個擴(kuò)散模型,它通過從看起來像靜態(tài)噪聲的視頻開始生成視頻,并通過許多步驟去除噪聲來逐漸轉(zhuǎn)換視頻。
Sora is capable of generating entire videos all at once or extending generated videos to make them longer. By giving the model foresight of many frames at a time, we’ve solved a challenging problem of making sure a subject stays the same even when it goes out of view temporarily.
索拉能夠一次生成整個視頻,或者擴(kuò)展生成的視頻,使其更長。通過讓模型一次預(yù)見許多幀,我們已經(jīng)解決了一個具有挑戰(zhàn)性的問題,即確保一個對象即使暫時離開視野也保持不變。
Similar to GPT models, Sora uses a transformer architecture, unlocking superior scaling performance.
與GPT型號類似,索拉使用Transformer架構(gòu),釋放了上級擴(kuò)展性能。
We represent videos and images as collections of smaller units of data called patches, each of which is akin to a token in GPT. By unifying how we represent data, we can train diffusion transformers on a wider range of visual data than was possible before, spanning different durations, resolutions and aspect ratios.
我們將視頻和圖像表示為稱為補(bǔ)丁的較小數(shù)據(jù)單元的集合,每個補(bǔ)丁類似于GPT中的令牌。通過統(tǒng)一我們表示數(shù)據(jù)的方式,我們可以在比以前更廣泛的視覺數(shù)據(jù)上訓(xùn)練擴(kuò)散變換器,跨越不同的持續(xù)時間,分辨率和縱橫比。
Sora builds on past research in DALL·E and GPT models. It uses the recaptioning technique from DALL·E 3, which involves generating highly descriptive captions for the visual training data. As a result, the model is able to follow the user’s text instructions in the generated video more faithfully.
索拉建立在過去的研究DALL·E和GPT模型。它使用了DALL·E 3中的重新捕獲技術(shù),該技術(shù)涉及為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的標(biāo)題。因此,該模型能夠更忠實(shí)地遵循用戶在生成的視頻中的文本指令。
In addition to being able to generate a video solely from text instructions, the model is able to take an existing still image and generate a video from it, animating the image’s contents with accuracy and attention to small detail. The model can also take an existing video and extend it or fill in missing frames.?Learn more in our technical report.
除了能夠僅從文本指令生成視頻外,該模型還能夠獲取現(xiàn)有的靜態(tài)圖像并從中生成視頻,以精確和關(guān)注小細(xì)節(jié)的方式動畫圖像的內(nèi)容。該模型還可以獲取現(xiàn)有視頻并對其進(jìn)行擴(kuò)展或填充丟失的幀。在我們的技術(shù)報告中了解更多信息。
Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.
索拉是能夠理解和模擬真實(shí)的世界的模型的基礎(chǔ),我們相信這一能力將成為實(shí)現(xiàn)AGI的重要里程碑。
OpenAISora 從文本創(chuàng)建視頻官網(wǎng)入口網(wǎng)址
OpenI小編發(fā)現(xiàn)OpenAISora 從文本創(chuàng)建視頻網(wǎng)站非常受用戶歡迎,請訪問OpenAISora 從文本創(chuàng)建視頻網(wǎng)址入口試用。
數(shù)據(jù)統(tǒng)計
數(shù)據(jù)評估
本站OpenI提供的OpenAISora 從文本創(chuàng)建視頻都來源于網(wǎng)絡(luò),不保證外部鏈接的準(zhǔn)確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實(shí)際控制,在2024年 2月 17日 下午9:04收錄時,該網(wǎng)頁上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除,OpenI不承擔(dān)任何責(zé)任。