MAETok

MAETok – 港大聯合北大等機構推出的自動編碼器

MAETok是什么

MAETok（Masked Autoencoders Tokenizer）是一種由卡內基梅隆大學、香港大學及北京大學等研究機構聯合開發的創新圖像標記化方法，專門應用于擴散模型。該方法基于掩碼建模（Mask Modeling）技術，通過訓練自編碼器（AE）來實現。在編碼器階段，隨機遮掩部分圖像標記，解碼器負責重建這些被遮掩的特征，從而學習到更為豐富且具有區分性的語義潛在空間。MAETok的顯著優勢在于其能夠生成高質量的圖像，并顯著提升訓練效率及推理吞吐量。在實驗中，MAETok通過使用128個標記，在ImageNet 256×256和512×512分辨率下達到了與現有最佳模型相媲美甚至更優的生成效果，展現了其在高分辨率圖像生成中的卓越能力。

MAETok

MAETok的主要功能

高效圖像生成：利用優化的潛在空間結構，生成出高質量的圖像，尤其在高分辨率圖像生成任務中展現出色的性能。
自監督學習：在訓練過程中，通過重建被掩蓋的圖像標記，從而獲得更具語義豐富性的潛在表示。
提升訓練效率：顯著減少訓練時間和計算資源的消耗，從而提供更快速的訓練和推理吞吐量。
多樣化特征預測：同時預測多種特征（如HOG、DINOv2、CLIP等），增強模型的表達能力與靈活性。
靈活的潛在空間設計：在不同任務中可靈活調整潛在空間的結構，以滿足多樣化的生成需求。

MAETok的技術原理

掩碼建模：在訓練階段，隨機選擇一定比例的圖像標記進行遮掩，并使用可學習的掩碼標記進行替代。編碼器依賴于處理未被遮掩的標記來學習潛在空間，而解碼器則重建被遮掩的特征。
自編碼器架構：采用自編碼器（AE）架構，而非變分自編碼器（VAE），避免了復雜的變分約束，簡化了訓練流程。
輔助解碼器：引入多個輔助淺層解碼器，用于分別預測不同特征目標，讓模型能夠學習到更豐富的語義信息，同時保持高保真度的重建效果。
潛在空間優化：MAETok結合掩碼建模與輔助解碼器，優化潛在空間結構，使其更加具備區分性和語義性，提升擴散模型的生成性能。