<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        OmniHuman

        AI工具3個(gè)月前更新 AI工具集
        1,338 0 0

        OmniHuman – 字節(jié)跳動(dòng)推出的單張照片生成全身動(dòng)態(tài)視頻生成框架

        OmniHuman是什么

        OmniHuman是字節(jié)跳動(dòng)推出的一種先進(jìn)的多模態(tài)視頻生成框架,能夠根據(jù)單一的人類圖像及信號(hào)(如音頻、視頻或兩者的結(jié)合)生成栩栩如生的人類視頻。該框架采用多模態(tài)條件混合訓(xùn)練策略,有效克服了以往方法因高質(zhì)量數(shù)據(jù)稀缺而造成的性能瓶頸,支持多種寬高比的圖像輸入(涵蓋肖像、半身和全身圖像),并能夠適應(yīng)多種場景需求。OmniHuman在歌唱、對(duì)話和手勢處理等多個(gè)領(lǐng)域表現(xiàn)優(yōu)異,支持多種視覺和音頻風(fēng)格,能夠利用音頻、視頻及其組合來生成高質(zhì)量的視頻內(nèi)容。

        OmniHuman

        OmniHuman的主要功能

        • 多模態(tài)驅(qū)動(dòng)的視頻生成
          • 支持音頻驅(qū)動(dòng)(如對(duì)話、唱歌)和姿勢驅(qū)動(dòng)(如手勢、動(dòng)作),并可融合兩者生成流暢自然的人類動(dòng)作視頻。
          • 兼容多種輸入形式,包括面部特寫、半身像、全身像,適應(yīng)不同比例和風(fēng)格的圖像。
        • 高逼真度與多樣化動(dòng)作
          • 生成的視頻在視覺效果上高度真實(shí),具備自然的面部表情、肢體動(dòng)作和流暢的動(dòng)態(tài)表現(xiàn)。
          • 能夠處理復(fù)雜動(dòng)作和物體交互,例如在唱歌時(shí)演奏樂器、手勢與物體之間的自然互動(dòng)等。
        • 靈活的視頻生成
          • 支持任意寬高比和時(shí)長的視頻生成,根據(jù)輸入信號(hào)生成不同長度的視頻片段。
          • 兼容多種圖像風(fēng)格,包括寫實(shí)、卡通和風(fēng)格化的人物表現(xiàn)。
        • 多場景適應(yīng)性:在各種環(huán)境中生成高質(zhì)量視頻,涵蓋不同的背景、光照條件和攝像角度。

        OmniHuman的技術(shù)原理

        • 混合條件訓(xùn)練策略
          • 多條件融合:將文本、音頻和姿勢等多種相關(guān)條件混合于訓(xùn)練過程中,以減少數(shù)據(jù)選擇的浪費(fèi),充分利用不同條件之間的互補(bǔ)性。
          • 分階段訓(xùn)練:基于三階段的訓(xùn)練策略,逐步引入不同條件(文本、音頻、姿勢),根據(jù)條件的強(qiáng)弱調(diào)整訓(xùn)練比例,從而優(yōu)化模型的泛化能力。
          • 訓(xùn)練原則:更強(qiáng)條件的任務(wù)需要使用較弱條件的任務(wù)及其對(duì)應(yīng)數(shù)據(jù),以擴(kuò)大數(shù)據(jù)規(guī)模。條件越強(qiáng),訓(xùn)練比例應(yīng)越低,以避免模型過度依賴于強(qiáng)條件。
        • 擴(kuò)散變換器架構(gòu)
          • 基于DiT的模型:OmniHuman基于先進(jìn)的視頻生成模型架構(gòu)DiT,利用因果3DVAE將視頻投影至潛在空間,并以流匹配作為訓(xùn)練目標(biāo)。
          • 條件注入
            • 音頻條件:通過wav2vec模型提取音頻特征,并將其與視頻幀特征結(jié)合,生成音頻令牌,基于交叉注意力機(jī)制注入至模型中。
            • 姿勢條件:利用姿勢引導(dǎo)器處理姿勢條件,將姿勢熱圖特征與視頻幀特征結(jié)合,生成姿勢令牌,連同噪聲潛在表示一起輸入模型。
            • 文本條件:保留DiT架構(gòu)中的文本分支,用于描述生成視頻的內(nèi)容。
          • 參考條件處理:采用創(chuàng)新的參考條件策略,通過修改3D旋轉(zhuǎn)位置嵌入,將參考圖像特征與視頻特征融合,無需額外的網(wǎng)絡(luò)模塊。
          • 推理策略
            • 分類器引導(dǎo)(CFG):在推理過程中,對(duì)音頻和文本條件應(yīng)用CFG策略,通過逐步降低CFG強(qiáng)度,平衡表達(dá)性與計(jì)算效率,減少生成視頻中的瑕疵。
            • 長視頻生成:使用上一個(gè)視頻片段的最后幾幀作為幀,確保長視頻生成中的時(shí)間連貫性和身份一致性。

        OmniHuman的項(xiàng)目地址

        OmniHuman的應(yīng)用場景

        • 影視與娛樂:生成虛擬角色動(dòng)畫、虛擬主播和音樂視頻等,提升內(nèi)容創(chuàng)作的效率和視覺吸引力。
        • 游戲開發(fā):為游戲角色和非玩家角色(NPC)生成自然動(dòng)作,增強(qiáng)游戲的沉浸感和互動(dòng)性。
        • 教育與培訓(xùn):創(chuàng)建虛擬教師和模擬訓(xùn)練視頻,輔助語言學(xué)習(xí)與職業(yè)技能培訓(xùn)。
        • 廣告與營銷:生成個(gè)性化廣告和品牌推廣視頻,提升用戶參與度和內(nèi)容吸引力。
        • 社交媒體與內(nèi)容創(chuàng)作:幫助創(chuàng)作者快速生成高質(zhì)量短視頻,支持互動(dòng)視頻創(chuàng)作,增加內(nèi)容的趣味性。
        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 亚洲视频在线观看不卡| 2019亚洲午夜无码天堂| 24小时日本电影免费看| 亚洲免费电影网站| 国产免费人成在线视频| a级成人免费毛片完整版| 亚洲女人初试黑人巨高清| 日韩视频免费在线| 你是我的城池营垒免费观看完整版| 久久久久亚洲精品成人网小说 | 亚洲福利视频网站| 免费看www视频| 免费看少妇高潮成人片| 亚洲欧美日韩一区二区三区 | 免费人成视频x8x8入口| 久久大香伊焦在人线免费| 亚洲日韩久久综合中文字幕| 亚洲自偷自偷图片| 成年私人影院免费视频网站| 最近免费中文字幕中文高清| 亚洲AV男人的天堂在线观看| 亚洲人JIZZ日本人| 大陆一级毛片免费视频观看| 国产日韩AV免费无码一区二区| 亚洲精品美女网站| 亚洲av不卡一区二区三区| 国产成人免费全部网站| 久久免费福利视频| 一区二区三区视频免费观看| 亚洲成人福利在线观看| 亚洲自偷自偷偷色无码中文| 成人黄18免费视频| 2015日韩永久免费视频播放| 美女无遮挡拍拍拍免费视频| 国产精品国产亚洲区艳妇糸列短篇 | 日韩插啊免费视频在线观看 | 亚洲精品黄色视频在线观看免费资源| 中文文字幕文字幕亚洲色| 亚洲av福利无码无一区二区| xvideos亚洲永久网址| 99精品全国免费观看视频|