SkyReels-A1

SkyReels-A1 – 昆侖萬維開源的表情動作可控算法

SkyReels-A1是昆侖萬維推出的中國首個SOTA（State-of-the-Art）級別的基于視頻基座模型的表情動作可控算法，它能夠生成高度逼真的動態(tài)視頻，并實現(xiàn)對人物表情和動作的精確控制。該算法支持多種人體比例的生成，如肖像、半身和全身，確保在生成過程中保持身份一致性。

SkyReels-A1是什么

SkyReels-A1是昆侖萬維開發(fā)的中國首個基于視頻基座模型的SOT別表情動作可控算法。它能夠生成更為精準(zhǔn)和可控的人物視頻，適用于各種人體比例（包括肖像、半身和全身），并實現(xiàn)高度真實的動態(tài)效果。SkyReels-A1通過精準(zhǔn)模擬人物的表情變化、情緒、皮膚質(zhì)感及身體動作等細(xì)節(jié)，達(dá)到高保真的微表情還原。該系統(tǒng)支持側(cè)臉表情控制、眉眼微表情生成，并能夠進(jìn)行更為廣泛的頭部和身體動作，其效果超過了同類產(chǎn)品。

SkyReels-A1

SkyReels-A1的主要功能

高保真肖像動畫生成：能夠從靜態(tài)肖像生成動態(tài)視頻，支持多種身體比例（如頭部、半身、全身）。精確地將驅(qū)動視頻中的表情和動作遷移到目標(biāo)肖像上，同時保持身份一致性。
表情和動作的精準(zhǔn)控制：支持復(fù)雜表情（如細(xì)微的眉眼動作和嘴唇）以及全身動作的自然遷移。提供高保真的表情捕捉和動作驅(qū)動能力，適合用于虛擬形象、遠(yuǎn)程通信和數(shù)字媒體生成。
身份保持與自然融合：在動畫生成過程中，確保生成的人物與原始肖像保持高度一致，避免身份失真。

SkyReels-A1的技術(shù)原理

視頻擴(kuò)散模型：基于逐步逆轉(zhuǎn)噪聲過程，將隨機(jī)噪聲轉(zhuǎn)化為結(jié)構(gòu)化的視頻內(nèi)容。擴(kuò)散模型通過估計每個時間步的噪聲，逐步生成高質(zhì)量的視頻幀，結(jié)合基于Transformer的自注意力機(jī)制，以捕捉視頻中的時空信息，生成連貫且自然的動態(tài)內(nèi)容。
表情感知地標(biāo)：提取驅(qū)動視頻中的表情地標(biāo)（如面部關(guān)鍵點），作為動畫生成的描述符。利用3D神經(jīng)渲染模塊，精確捕捉細(xì)微的表情變化（如眉毛和嘴唇的動作），融入生成過程中。
時空對齊地標(biāo)引導(dǎo)模塊：采用3D因果編碼器將地標(biāo)信息映射到視頻的潛在空間，確保驅(qū)動信號與生成視頻的時空一致性，增強(qiáng)信號的捕捉能力，確保生成視頻的連貫性。
面部圖像-文本對齊模塊：將面部特征映射到文本特征空間，提升身份一致性。通過融合視覺和文本特征，提高生成結(jié)果的準(zhǔn)確性和身份保留能力。
分階段訓(xùn)練策略：
- 動作驅(qū)動訓(xùn)練：專注于將動作條件融入視頻生成過程，優(yōu)化表示。
- 身份保持訓(xùn)練：優(yōu)化面部特征的投影層，增強(qiáng)身份一致性。
- 多模塊聯(lián)合微調(diào)：聯(lián)合優(yōu)化所有模塊，提升模型的泛化能力和生成質(zhì)量。