MAETok – 港大聯(lián)合北大等機(jī)構(gòu)推出的自動(dòng)編碼器
MAETok是什么
MAETok(Masked Autoencoders Tokenizer)是一種由卡內(nèi)基梅隆大學(xué)、香港大學(xué)及北京大學(xué)等研究機(jī)構(gòu)聯(lián)合開(kāi)發(fā)的創(chuàng)新圖像標(biāo)記化方法,專門(mén)應(yīng)用于擴(kuò)散模型。該方法基于掩碼建模(Mask Modeling)技術(shù),通過(guò)訓(xùn)練自編碼器(AE)來(lái)實(shí)現(xiàn)。在編碼器階段,隨機(jī)遮掩部分圖像標(biāo)記,解碼器負(fù)責(zé)重建這些被遮掩的特征,從而學(xué)習(xí)到更為豐富且具有區(qū)分性的語(yǔ)義潛在空間。MAETok的顯著優(yōu)勢(shì)在于其能夠生成高質(zhì)量的圖像,并顯著提升訓(xùn)練效率及推理吞吐量。在實(shí)驗(yàn)中,MAETok通過(guò)使用128個(gè)標(biāo)記,在ImageNet 256×256和512×512分辨率下達(dá)到了與現(xiàn)有最佳模型相媲美甚至更優(yōu)的生成效果,展現(xiàn)了其在高分辨率圖像生成中的卓越能力。
MAETok的主要功能
- 高效圖像生成:利用優(yōu)化的潛在空間結(jié)構(gòu),生成出高質(zhì)量的圖像,尤其在高分辨率圖像生成任務(wù)中展現(xiàn)出色的性能。
- 自監(jiān)督學(xué)習(xí):在訓(xùn)練過(guò)程中,通過(guò)重建被掩蓋的圖像標(biāo)記,從而獲得更具語(yǔ)義豐富性的潛在表示。
- 提升訓(xùn)練效率:顯著減少訓(xùn)練時(shí)間和計(jì)算資源的消耗,從而提供更快速的訓(xùn)練和推理吞吐量。
- 多樣化特征預(yù)測(cè):同時(shí)預(yù)測(cè)多種特征(如HOG、DINOv2、CLIP等),增強(qiáng)模型的表達(dá)能力與靈活性。
- 靈活的潛在空間設(shè)計(jì):在不同任務(wù)中可靈活調(diào)整潛在空間的結(jié)構(gòu),以滿足多樣化的生成需求。
MAETok的技術(shù)原理
- 掩碼建模:在訓(xùn)練階段,隨機(jī)選擇一定比例的圖像標(biāo)記進(jìn)行遮掩,并使用可學(xué)習(xí)的掩碼標(biāo)記進(jìn)行替代。編碼器依賴于處理未被遮掩的標(biāo)記來(lái)學(xué)習(xí)潛在空間,而解碼器則重建被遮掩的特征。
- 自編碼器架構(gòu):采用自編碼器(AE)架構(gòu),而非變分自編碼器(VAE),避免了復(fù)雜的變分約束,簡(jiǎn)化了訓(xùn)練流程。
- 輔助解碼器:引入多個(gè)輔助淺層解碼器,用于分別預(yù)測(cè)不同特征目標(biāo),讓模型能夠?qū)W習(xí)到更豐富的語(yǔ)義信息,同時(shí)保持高保真度的重建效果。
- 潛在空間優(yōu)化:MAETok結(jié)合掩碼建模與輔助解碼器,優(yōu)化潛在空間結(jié)構(gòu),使其更加具備區(qū)分性和語(yǔ)義性,提升擴(kuò)散模型的生成性能。
MAETok的項(xiàng)目地址
- GitHub倉(cāng)庫(kù):https://github.com/Hhhhhhao/continuous_tokenizer
- HuggingFace模型庫(kù):https://huggingface.co/MAETok
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.03444
MAETok的應(yīng)用場(chǎng)景
- 娛樂(lè)行業(yè):在影視特效、游戲開(kāi)發(fā)及虛擬現(xiàn)實(shí)領(lǐng)域生成高分辨率圖像,提供優(yōu)質(zhì)的圖像素材。
- 數(shù)字營(yíng)銷:在廣告設(shè)計(jì)、創(chuàng)意藝術(shù)及數(shù)字媒體制作等領(lǐng)域,根據(jù)用戶提供的草圖或部分圖像生成完整圖像,或?qū)ΜF(xiàn)存圖像進(jìn)行風(fēng)格化處理。
- 計(jì)算機(jī)領(lǐng)域:在機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺(jué)領(lǐng)域中,生成多樣化的圖像樣本,以提高模型的泛化能力和魯棒性。
- 虛擬內(nèi)容創(chuàng)作:在虛擬現(xiàn)實(shí)(VR)、增強(qiáng)現(xiàn)實(shí)(AR)和元宇宙等新興領(lǐng)域生成虛擬角色、場(chǎng)景及物體。
- 藝術(shù)創(chuàng)作與設(shè)計(jì):為藝術(shù)家和設(shè)計(jì)師提供工具,生成創(chuàng)意圖像和設(shè)計(jì)理念。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...