<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Open-Sora

        AI工具10個月前發(fā)布 AI工具集
        925 0 0

        Open-Sora是一款由Colossal-AI團(tuán)隊(duì)開發(fā)和開源的視頻生成模型,旨在復(fù)現(xiàn)OpenAI的Sora視頻生成產(chǎn)品。該模型基于Diffusion Transformer(DiT)架構(gòu),通過三個訓(xùn)練階段——大規(guī)模圖像預(yù)訓(xùn)練、大規(guī)模視頻預(yù)訓(xùn)練以及高質(zhì)量視頻數(shù)據(jù)微調(diào),能夠生成與文本描述高度一致的視頻內(nèi)容。

        Open-Sora是什么

        Open-Sora是Colossal-AI團(tuán)隊(duì)推出的開源視頻生成模型,目標(biāo)在于復(fù)現(xiàn)OpenAI的Sora視頻生成技術(shù)。該模型利用DiT架構(gòu),經(jīng)過三個階段的訓(xùn)練:大規(guī)模圖像預(yù)訓(xùn)練、大規(guī)模視頻預(yù)訓(xùn)練和高質(zhì)量視頻數(shù)據(jù)微調(diào),從而實(shí)現(xiàn)生成與輸入文本描述相符的視頻內(nèi)容。作為一項(xiàng)開源解決方案,Open-Sora涵蓋了視頻生成模型訓(xùn)練的全流程,包括數(shù)據(jù)處理、訓(xùn)練細(xì)節(jié)和模型檢查點(diǎn),供所有對文本生成視頻技術(shù)感興趣的用戶免費(fèi)學(xué)習(xí)和使用。

        Open-Sora

        Open-Sora的官網(wǎng)入口

        Open-Sora的模型架構(gòu)

        Open-Sora采用當(dāng)前流行的Diffusion Transformer(DiT)架構(gòu),基于華為開源的PixArt-α高質(zhì)量文本到圖像生成模型,并通過添加時間注意力層來擴(kuò)展至視頻生成。具體設(shè)計(jì)如下:
        Open-Sora

        核心組件

        • 預(yù)訓(xùn)練的VAE(變分自編碼器):VAE組件用于數(shù)據(jù)壓縮,將輸入的視頻數(shù)據(jù)映射到潛在空間的低維表示。在Open-Sora中,VAE的編碼器在訓(xùn)練時壓縮視頻數(shù)據(jù),而在推理階段,則從潛在空間中采樣高斯噪聲生成視頻。
        • 文本編碼器:該組件負(fù)責(zé)將文本提示(如描述視頻內(nèi)容的句子)轉(zhuǎn)換為文本嵌入,這些嵌入隨后與視頻數(shù)據(jù)結(jié)合,確保生成的視頻與文本描述相符。
        • STDiT(空間時間擴(kuò)散變換器):這是Open-Sora的核心組件,利用空間-時間注意力機(jī)制的DiT模型。STDiT通過串聯(lián)二維空間注意力模塊與一維時間注意力模塊來建模視頻數(shù)據(jù)中的時序關(guān)系,同時交叉注意力模塊用于對齊文本的語義信息。

        架構(gòu)設(shè)計(jì)

        • 空間-時間注意力機(jī)制:STDiT模型的每一層包含空間和時間注意力模塊,空間注意力模塊處理視頻幀的二維特征,而時間注意力模塊則處理幀間的時序關(guān)系。這種設(shè)計(jì)使得模型能夠有效處理視頻數(shù)據(jù)的空間和時間維度。
        • 交叉注意力:在時間注意力模塊之后,交叉注意力模塊用于將文本嵌入與視頻特征融合,確保生成的視頻內(nèi)容與文本描述相匹配。
        • 訓(xùn)練與推理流程:在訓(xùn)練階段,VAE編碼器將視頻數(shù)據(jù)壓縮,并與文本嵌入一起訓(xùn)練STDiT模型。在推理階段,從VAE潛在空間中采樣噪聲,與文本提示一同輸入到STDiT模型中,生成去噪后的特征,最終通過VAE解碼器解碼得到視頻。
          Open-Sora

        Open-Sora的復(fù)現(xiàn)方案

        Open-Sora的訓(xùn)練復(fù)現(xiàn)方案借鑒了Stable Video Diffusion(SVD)的工作,分為三個階段:大規(guī)模圖像預(yù)訓(xùn)練、大規(guī)模視頻預(yù)訓(xùn)練以及高質(zhì)量視頻數(shù)據(jù)微調(diào)。通過這三個階段的訓(xùn)練,Open-Sora模型能夠逐步提升視頻生成能力,從基礎(chǔ)的圖像理解到復(fù)雜的視頻內(nèi)容生成,最終實(shí)現(xiàn)高質(zhì)量的視頻生成效果。

        第一階段:大規(guī)模圖像預(yù)訓(xùn)練

        在第一階段,模型通過大規(guī)模圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,以建立對圖像內(nèi)容的基本理解。此階段旨在利用現(xiàn)有的高質(zhì)量圖像生成模型(如Stable Diffusion)作為基礎(chǔ),初始化視頻生成模型的權(quán)重。通過這種方式,模型能夠從圖像數(shù)據(jù)中學(xué)習(xí)到豐富的視覺特征,為后續(xù)的視頻預(yù)訓(xùn)練奠定堅(jiān)實(shí)基礎(chǔ)。

        第二階段:大規(guī)模視頻預(yù)訓(xùn)練

        第二階段專注于大規(guī)模視頻數(shù)據(jù)的預(yù)訓(xùn)練,旨在增強(qiáng)模型對視頻時間序列的理解。此階段通過大量視頻數(shù)據(jù)訓(xùn)練,以學(xué)習(xí)視頻中的時序關(guān)系和動態(tài)變化。為了提高模型的泛化能力,需要確保視頻題材的多樣性。此外,模型在此階段將加入時序注意力模塊,以更好地處理時間序列數(shù)據(jù)。此階段的訓(xùn)練將在第一階段的基礎(chǔ)上進(jìn)行,使用前一階段的權(quán)重作為起點(diǎn)。

        第三階段:高質(zhì)量視頻數(shù)據(jù)微調(diào)

        最后階段是對模型進(jìn)行微調(diào),使用高質(zhì)量的視頻數(shù)據(jù)以進(jìn)一步提升生成視頻的質(zhì)量和真實(shí)感。在此階段,雖然使用的視頻數(shù)據(jù)量可能較少,但視頻的時長、分辨率和質(zhì)量都更高。微調(diào)過程幫助模型捕捉更細(xì)致和逼真的視頻內(nèi)容,從而生成更符合用戶期望的視頻。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产亚洲人成网站观看| 亚洲六月丁香六月婷婷蜜芽 | 亚洲va无码va在线va天堂| 免费的黄色的网站| 国产白丝无码免费视频| 亚洲熟女少妇一区二区| 中文字幕在线免费看线人| 亚洲无线码在线一区观看| 免费视频成人手机在线观看网址| 国产V亚洲V天堂无码久久久| 欧洲人免费视频网站在线| 亚洲欧洲日产国码久在线观看| 99久久99久久免费精品小说| 亚洲国产高清在线精品一区| 在线观看无码AV网站永久免费| 亚洲高清一区二区三区| 亚洲va中文字幕无码| 亚洲噜噜噜噜噜影院在线播放| 美女被免费喷白浆视频| 亚洲va无码专区国产乱码| 免费播放一区二区三区| 亚洲毛片基地4455ww| 日本免费中文字幕在线看| 一级片在线免费看| 亚洲午夜精品久久久久久人妖| 中文字幕免费在线看线人| 亚洲jizzjizz少妇| 亚洲人精品午夜射精日韩| 亚洲一级免费视频| 老司机午夜免费视频| 国产亚洲av片在线观看16女人| 57PAO成人国产永久免费视频| 亚洲av无一区二区三区| 亚洲精品二区国产综合野狼| 免费观看的毛片大全| 国产精品亚洲专区无码WEB| 亚洲精品自在在线观看| 岛国av无码免费无禁网站| 国产激情久久久久影院老熟女免费| 亚洲天堂男人天堂| 亚洲AV无码专区日韩|