<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具

        AIGC動(dòng)態(tài)8個(gè)月前發(fā)布 智猩猩GenAI
        474 0 0

        Open-Sora 代表了開源視頻生成領(lǐng)域的一次重大進(jìn)步

        完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具

        原標(biāo)題:完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):12894字

        Open-Sora:開源高效視頻生成模型

        本文總結(jié)了Open-Sora開源視頻生成模型的研發(fā)成果,該模型能夠支持文本生成圖像、文本生成視頻以及圖像生成視頻等多種視覺生成任務(wù)。其核心在于高效的空間-時(shí)間擴(kuò)散Transformer (STDiT)框架,通過解耦空間與時(shí)間的注意力機(jī)制,并結(jié)合高度壓縮的3D自編碼器,顯著提升了訓(xùn)練效率和生成質(zhì)量。

        1. 解決的問題與提出的方案

        現(xiàn)有的視頻生成模型在高保真視頻內(nèi)容生成、靈活視頻合成及長(zhǎng)時(shí)間視頻生成方面存在諸多挑戰(zhàn)。Open-Sora旨在解決這些問題,它是一個(gè)開源的視頻生成模型,支持多種視覺生成任務(wù)。通過STDiT框架解耦空間和時(shí)間注意力,并利用3D自編碼器壓縮表示,加速了訓(xùn)練過程。此外,項(xiàng)目還提供完整的訓(xùn)練代碼、模型權(quán)重及數(shù)據(jù)處理工具,方便社區(qū)發(fā)展。

        2. 數(shù)據(jù)與預(yù)處理

        Open-Sora使用了多個(gè)開源數(shù)據(jù)集,包括Webvid-10M、Panda-70M、HD-VG-130M、MiraData、Vript、Inter4K以及來自Pexels、Pixabay和Mixkit的視頻,以及LAION和Unsplash-lite圖像數(shù)據(jù)集??傆?jì)包含3000萬個(gè)視頻片段,總時(shí)長(zhǎng)達(dá)8萬小時(shí)。為了確保數(shù)據(jù)質(zhì)量,建立了一套完整的數(shù)據(jù)處理pipeline,包括場(chǎng)景檢測(cè)與視頻剪輯、高質(zhì)量視頻過濾(基于美學(xué)評(píng)分和光流評(píng)分)、文本場(chǎng)景過濾以及視頻字幕生成(使用GPT-4V和PLLaVA)。

        3. 模型架構(gòu)

        Open-Sora的架構(gòu)基于PixArt,采用T5文本編碼器和STDiT框架。3D自編碼器用于視頻壓縮,Open-Sora 1.2版本引入了一個(gè)受OpenAI Sora啟發(fā)的視頻壓縮網(wǎng)絡(luò),在時(shí)間維度上實(shí)現(xiàn)了4倍壓縮,提升了視頻生成流暢性。模型使用了定制化的訓(xùn)練策略,包括多階段訓(xùn)練和基于分桶的策略,以應(yīng)對(duì)不同分辨率和長(zhǎng)寬比的視頻。

        4. 訓(xùn)練策略與細(xì)節(jié)

        Open-Sora的訓(xùn)練過程分為三個(gè)階段:第一階段使用Webvid-10M數(shù)據(jù)集進(jìn)行初步訓(xùn)練;第二階段使用Panda-70M數(shù)據(jù)集進(jìn)行精細(xì)化訓(xùn)練;第三階段使用高質(zhì)量視頻數(shù)據(jù)集進(jìn)行高分辨率訓(xùn)練。訓(xùn)練過程中,采用了多種優(yōu)化策略,例如身份損失、混合視頻長(zhǎng)度訓(xùn)練、隨機(jī)遮罩策略以及QK正則化等,以提升模型性能和訓(xùn)練效率。最終模型能夠生成最長(zhǎng)15秒、分辨率最高720p的視頻。

        5. 模型適配與性能提升

        Open-Sora從PixArt-Σ 2K checkpoint開始進(jìn)行模型適配,通過多個(gè)階段的微調(diào),最終實(shí)現(xiàn)了高效的視頻生成。適配過程包括多分辨率圖像生成訓(xùn)練、QK正則化、修正流、logit-norm采樣以及新VAE的引入,顯著提升了訓(xùn)練和推理效率,并增強(qiáng)了模型的穩(wěn)定性。最終模型在VBench分?jǐn)?shù)上達(dá)到行業(yè)領(lǐng)先水平。

        6. 結(jié)論

        Open-Sora是一個(gè)具有里程碑意義的開源視頻生成模型,它提供了全面的框架、高質(zhì)量的數(shù)據(jù)處理工具和預(yù)訓(xùn)練模型權(quán)重,并成功復(fù)現(xiàn)了Sora報(bào)告中的關(guān)鍵技術(shù),實(shí)現(xiàn)了高質(zhì)量、長(zhǎng)時(shí)長(zhǎng)的視頻生成。該項(xiàng)目推動(dòng)了社區(qū)發(fā)展,并為該領(lǐng)域未來的研究奠定了堅(jiān)實(shí)的基礎(chǔ)。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡(jiǎn)介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 性短视频在线观看免费不卡流畅| 野花香高清在线观看视频播放免费 | 日韩午夜理论免费TV影院| mm1313亚洲国产精品无码试看| 亚洲日韩图片专区第1页| 亚洲无线码一区二区三区| 亚洲免费在线观看| 亚洲一区二区三区无码影院| 天天天欲色欲色WWW免费| 欧美在线看片A免费观看| 国产高清免费视频| 手机在线免费视频| 四虎成人精品在永久免费| 亚洲专区在线视频| 亚洲av片不卡无码久久| 亚洲精品视频在线观看免费| 亚洲18在线天美| 美女扒开屁股让男人桶爽免费 | 日韩高清在线免费观看| 免费又黄又爽的视频| 亚洲第一区精品日韩在线播放| 美腿丝袜亚洲综合| 亚洲AV成人一区二区三区AV| 亚洲欧洲高清有无| 亚洲av综合av一区二区三区 | 亚洲大成色www永久网站| 亚洲国产成人手机在线电影bd| 麻豆亚洲AV成人无码久久精品 | 亚洲免费观看网站| 免费无码一区二区| 免费成人福利视频| 国产精品V亚洲精品V日韩精品 | 亚洲日韩人妻第一页| 亚洲AV成人无码天堂| 久久久久免费精品国产| 三年片在线观看免费大全| 亚洲毛片αv无线播放一区| 亚洲国产av一区二区三区丶| 国产精品成人啪精品视频免费| 妞干网在线免费视频| 亚洲精品福利在线观看|