xAR – 字節(jié)聯(lián)合霍普金斯大學(xué)推出的自回歸視覺生成框架
xAR是什么
xAR 是一款由字節(jié)跳動(dòng)與約翰·霍普金斯大學(xué)合作開發(fā)的先進(jìn)自回歸視覺生成框架。該框架采用“下一個(gè)X預(yù)測”(Next-X Prediction)和“噪聲上下文學(xué)習(xí)”(Noisy Context Learning)技術(shù),有效解決了傳統(tǒng)自回歸模型在視覺生成中存在的信息密度不足及累積誤差的問題。
xAR的主要功能
- 下一個(gè)X預(yù)測(Next-X Prediction):該功能超越了傳統(tǒng)的“下一個(gè)標(biāo)記預(yù)測”,使模型能夠預(yù)測更復(fù)雜的視覺實(shí)體(例如圖像塊、單元、子采樣和整體圖像),從而捕捉到更豐富的語義信息。
- 噪聲上下文學(xué)習(xí)(Noisy Context Learning):通過在訓(xùn)練過程中引入噪聲,該技術(shù)增強(qiáng)了模型對誤差的魯棒性,顯著緩解了累積誤差問題。
- 卓越的生成性能:在ImageNet數(shù)據(jù)集上,xAR模型在推理速度和生成質(zhì)量上均優(yōu)于現(xiàn)有技術(shù),如DiT及其他擴(kuò)散模型。
- 靈活的預(yù)測單元:支持多種預(yù)測單元設(shè)計(jì)(如單元、子采樣和多尺度預(yù)測等),適應(yīng)不同的視覺生成任務(wù)。
xAR的技術(shù)原理
- 流匹配(Flow Matching):xAR通過流匹配方法將離散標(biāo)記分類問題轉(zhuǎn)化為連續(xù)實(shí)體回歸問題,具體過程包括:
- 模型通過插值和噪聲注入生成帶噪聲的輸入。
- 在每個(gè)自回歸步驟中,模型預(yù)測從噪聲分布到目標(biāo)分布的方向流(Velocity),從而逐步優(yōu)化生成結(jié)果。
- 推理策略:在推理階段,xAR采用自回歸的方式逐步生成圖像:
- 首先從高斯噪聲中預(yù)測初始單元(例如8×8的圖像塊)。
- 基于已生成的單元,模型逐步生成下一個(gè)單元,直至完成整個(gè)圖像的生成。
- 實(shí)驗(yàn)結(jié)果:xAR在ImageNet-256和ImageNet-512基準(zhǔn)測試中顯示出顯著的性能提升:
- xAR-B(1.72億參數(shù))模型在推理速度上比DiT-XL(6.75億參數(shù))快20倍,同時(shí)在弗雷歇生成距離(FID)上達(dá)到1.72,超越了現(xiàn)有的擴(kuò)散模型和自回歸模型。
- xAR-H(11億參數(shù))模型在ImageNet-256上達(dá)到了1.24的FID,創(chuàng)造了新的最優(yōu)記錄,并且不依賴于視覺基礎(chǔ)模型(如DINOv2)或高級(jí)引導(dǎo)區(qū)間采樣。
xAR的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://oliverrensu.github.io/project/xAR/
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.20388
xAR的應(yīng)用場景
- 藝術(shù)創(chuàng)作:藝術(shù)家可以利用xAR生成創(chuàng)意圖像,作為創(chuàng)作靈感的來源或直接用于藝術(shù)作品的創(chuàng)作。xAR能夠生成豐富細(xì)節(jié)和多樣風(fēng)格的圖像,滿足不同分辨率和風(fēng)格的需求。
- 虛擬場景生成:在游戲開發(fā)和虛擬現(xiàn)實(shí)(VR)領(lǐng)域,xAR可以迅速生成逼真的虛擬場景,包括自然風(fēng)光、城市環(huán)境和虛擬角色等,極大提升用戶體驗(yàn)。
- 老照片修復(fù):通過生成高質(zhì)量的圖像內(nèi)容,xAR能夠修復(fù)老照片中的損壞部分,恢復(fù)其原始細(xì)節(jié)和色彩。
- 視頻內(nèi)容生成:xAR可用于生成視頻中特定的場景或?qū)ο螅瑧?yīng)用于視頻特效制作、動(dòng)畫生成及視頻編輯等領(lǐng)域。
- 數(shù)據(jù)增強(qiáng):通過生成多樣化的圖像,xAR能夠擴(kuò)展訓(xùn)練數(shù)據(jù)集,提升模型的泛化能力和魯棒性。
常見問題
- xAR的使用門檻高嗎?:xAR設(shè)計(jì)上考慮了用戶友好性,提供了易于使用的界面,適合不同技能水平的用戶。
- 生成的圖像質(zhì)量如何?:xAR在多個(gè)基準(zhǔn)測試中展現(xiàn)了優(yōu)異的生成質(zhì)量,其生成的圖像細(xì)節(jié)豐富,風(fēng)格多樣。
- 是否支持多種平臺(tái)?:xAR可以在多種計(jì)算環(huán)境中運(yùn)行,適用于研究、開發(fā)及商業(yè)應(yīng)用。
# AI工具# AI項(xiàng)目和框架# 3D模型展示# 增強(qiáng)現(xiàn)實(shí)體驗(yàn)# 實(shí)時(shí)數(shù)據(jù)交互# 環(huán)境模擬分析# 虛擬試衣功能
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...