終于等來能塞進手機的文生圖模型!十分之一體量,SnapGen實現(xiàn)百分百的效果
僅有379M參數(shù)

原標題:終于等來能塞進手機的文生圖模型!十分之一體量,SnapGen實現(xiàn)百分百的效果
文章來源:機器之心
內(nèi)容字數(shù):7536字
SnapGen:輕量級移動端文生圖模型
本文介紹了Snap研究院Creative Vision團隊提出的SnapGen模型,這是一個僅有379M參數(shù)的文生圖模型,可在iPhone 16 Pro Max上以1.4秒的速度生成1024×1024像素的高質(zhì)量圖像。該模型在多個基準測試中超越了參數(shù)量更大的模型,展現(xiàn)了其在移動端部署的高效性和高性能。
1. 模型高效性
SnapGen的成功源于對模型架構(gòu)和訓練方法的全面優(yōu)化。研究團隊對去噪UNet和圖像解碼器進行了精細調(diào)整,在資源使用和性能之間取得最佳平衡。具體優(yōu)化包括:移除高分辨率自注意力層,使用寬度擴展的深度可分卷積替代常規(guī)卷積,降低全連接層中間通道維度,更早注入文本條件信息,以及優(yōu)化自注意力和交叉注意力算子等。
通過在ImageNet-1K數(shù)據(jù)集上的實驗,驗證了這些架構(gòu)優(yōu)化的有效性。SnapGen在生成質(zhì)量與現(xiàn)有模型相當?shù)那闆r下,顯著降低了模型大小和計算量。
圖像解碼器方面,團隊通過移除冗余的自注意力機制和GroupNorm層,并減小網(wǎng)絡寬度,實現(xiàn)了近乎無損的36倍參數(shù)壓縮和54倍的解碼加速。
2. 多級知識蒸餾
SnapGen利用SD3.5-Large作為教師模型進行知識蒸餾。為了解決教師模型和學生模型的異構(gòu)性以及不同時間步上蒸餾損失函數(shù)尺度不一致的問題,團隊提出了一種多級知識蒸餾框架,包含輸出蒸餾和特征蒸餾,并采用了時間步感知的縮放操作,加速了訓練并提升了模型生成能力。
3. 步數(shù)蒸餾
為了進一步減少推理時間,SnapGen使用了基于LADD的少步數(shù)蒸餾,將4步模型SD3.5-Large-Turbo作為教師模型和判別器的特征提取器。結(jié)果表明,經(jīng)過蒸餾后的模型在4步和8步推理下仍能保持與28步相當?shù)纳少|(zhì)量。
4. 實驗結(jié)果
在GenEval、DPG-Bench、CLIP Score on COCO和ImageReward等多個基準測試中,SnapGen在參數(shù)量最小、吞吐量最高的情況下,仍取得了領先的性能。人類偏好測試也表明,SnapGen生成的圖像在真實感、美學和文字圖像一致性方面與SD3-Medium和SD3.5-Large接近,并顯著超越SDXL。
5. 結(jié)論
SnapGen通過高效的模型架構(gòu)、先進的知識蒸餾和少步數(shù)蒸餾算法,實現(xiàn)了在移動端高效生成高質(zhì)量圖像的目標。它為文生圖模型的輕量化和移動端部署提供了一種新的思路,也為生成模型研究帶來了新的啟發(fā)。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺

粵公網(wǎng)安備 44011502001135號