英偉達聯(lián)手MIT清北發(fā)布SANA 1.5！線性擴散Transformer再刷文生圖新SOTA

原標題：英偉達聯(lián)手MIT清北發(fā)布SANA 1.5！線性擴散Transformer再刷文生圖新SOTA
文章來源：新智元
內(nèi)容字數(shù)：7982字

SANA 1.5：高效可擴展的文本生成圖像模型

近年來，文本生成圖像技術飛速發(fā)展，但模型規(guī)模的擴大也帶來了巨大的計算成本。為了解決這一問題，英偉達聯(lián)合MIT、清華、北大等機構的研究人員，在SANA 1.0的基礎上，推出了SANA 1.5，一種高效可擴展的線性擴散Transformer模型。SANA 1.5通過三項創(chuàng)新，在保持甚至提升生成質(zhì)量的同時，大幅降低了訓練和推理成本。

1. 高效模型增長策略

SANA 1.5提出了一種高效的模型增長策略，能夠?qū)⒛Ｐ蛥?shù)從16億（20層）擴展到48億（60層），同時顯著減少計算資源消耗。該策略并非從頭開始訓練大模型，而是通過有策略地初始化額外模塊，保留小模型的先驗知識，從而減少約60%的訓練時間。研究者比較了三種初始化策略，最終選擇“部分保留初始化”方法，因為它簡單且穩(wěn)定。預訓練的層繼續(xù)發(fā)揮特征提取作用，新增層從恒等映射起步，逐步學習優(yōu)化特征表示。

2. 模型深度剪枝技術

SANA 1.5引入了模型深度剪枝技術，通過分析Transformer塊的輸入輸出相似性，識別并保留關鍵塊，實現(xiàn)高效的模型壓縮。這種方法受Minitron啟發(fā)，頭部和尾部塊的重要性較高，而中間層則主要用于逐步優(yōu)化生成結(jié)果。剪枝后，通過少量微調(diào)即可恢復模型質(zhì)量，實現(xiàn)靈活的模型配置。實驗表明，剪枝后的16億參數(shù)模型能達到與完整的48億參數(shù)模型相近的質(zhì)量。

3. 推理時擴展策略

SANA 1.5提出了一種推理期間擴展策略，通過增加采樣次數(shù)而非增加去噪步驟來提升生成質(zhì)量。該策略利用視覺語言模型(VLM)對生成的圖像進行評價和篩選，選擇與文本提示匹配度最高的圖像。實驗結(jié)果顯示，這種方法將GenEval分數(shù)從0.72提升至0.80，顯著提高了生成圖像的質(zhì)量和準確性。

4. 內(nèi)存高效優(yōu)化器

為了實現(xiàn)大模型的高效訓練與微調(diào)，SANA 1.5使用了CAME-8bit優(yōu)化器，它比AdamW-32bit減少了約8倍的內(nèi)存使用，同時保持訓練穩(wěn)定性。這使得在消費級GPU上微調(diào)數(shù)十億參數(shù)的模型成為可能。

5. SANA 1.5的性能

SANA 1.5在GenEval基準測試中達到了最先進的性能。與傳統(tǒng)方法相比，其訓練收斂速度快2.5倍，GenEval分數(shù)從0.66提升至0.80。SANA-4.8B模型的參數(shù)數(shù)量遠小于其他先進模型，但生成質(zhì)量卻能達到甚至超越它們。此外，SANA 1.5在推理速度和吞吐量方面也具有顯著優(yōu)勢。

6. SANA 1.0的核心創(chuàng)新

SANA 1.0的核心創(chuàng)新在于其高效的設計：深度壓縮自動編碼器（32倍壓縮比）、線性DiT（線性注意力機制，降低計算復雜度）、僅解碼文本編碼器（Gemma模型）以及高效的訓練和采樣方法（Flow-DPM-Solver）。這些創(chuàng)新使得SANA-0.6B模型在保持與大型擴散模型相當?shù)纳少|(zhì)量的同時，模型體積縮小了20倍，數(shù)據(jù)處理能力提升了100倍以上，甚至能在普通筆記本電腦上運行。

總而言之，SANA 1.5通過高效的模型增長、深度剪枝和推理時擴展策略，在文本生成圖像任務中取得了顯著的成果，為構建高效可擴展的大模型提供了新的思路。

聯(lián)系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

閱讀原文

# AIGC動態(tài)# SANA15 # SOTA模型 # Transformer架構 # 文生圖 # 線性擴散模型

文章版權歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

英偉達聯(lián)手MIT清北發(fā)布SANA 1.5！線性擴散Transformer再刷文生圖新SOTA

SANA 1.5：高效可擴展的文本生成圖像模型

1. 高效模型增長策略

2. 模型深度剪枝技術

3. 推理時擴展策略

4. 內(nèi)存高效優(yōu)化器

5. SANA 1.5的性能

6. SANA 1.0的核心創(chuàng)新

聯(lián)系作者

ICLR 2025｜小米新一代Kaldi語音識別算法CR-CTC，純CTC性能實現(xiàn)SOTA

“李飛飛團隊 50 美元煉出 DeepSeek R1”被質(zhì)疑，上海交大本科生新“低成本推理”或成新寵！

相關文章

暫無評論

ChatGPT

玩虛擬模特？