<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        英偉達聯(lián)手MIT清北發(fā)布SANA 1.5!線性擴散Transformer再刷文生圖新SOTA

        AIGC動態(tài)5個月前發(fā)布 新智元
        290 0 0

        英偉達聯(lián)手MIT清北發(fā)布SANA 1.5!線性擴散Transformer再刷文生圖新SOTA

        原標題:英偉達聯(lián)手MIT清北發(fā)布SANA 1.5!線性擴散Transformer再刷文生圖新SOTA
        文章來源:新智元
        內(nèi)容字數(shù):7982字

        SANA 1.5:高效可擴展的文本生成圖像模型

        近年來,文本生成圖像技術(shù)飛速發(fā)展,但模型規(guī)模的擴大也帶來了巨大的計算成本。為了解決這一問題,英偉達聯(lián)合MIT、清華、北大等機構(gòu)的研究人員,在SANA 1.0的基礎(chǔ)上,推出了SANA 1.5,一種高效可擴展的線性擴散Transformer模型。SANA 1.5通過三項創(chuàng)新,在保持甚至提升生成質(zhì)量的同時,大幅降低了訓(xùn)練和推理成本。

        1. 高效模型增長策略

        SANA 1.5提出了一種高效的模型增長策略,能夠?qū)⒛P蛥?shù)從16億(20層)擴展到48億(60層),同時顯著減少計算資源消耗。該策略并非從頭開始訓(xùn)練大模型,而是通過有策略地初始化額外模塊,保留小模型的先驗知識,從而減少約60%的訓(xùn)練時間。研究者比較了三種初始化策略,最終選擇“部分保留初始化”方法,因為它簡單且穩(wěn)定。預(yù)訓(xùn)練的層繼續(xù)發(fā)揮特征提取作用,新增層從恒等映射起步,逐步學(xué)習(xí)優(yōu)化特征表示。

        2. 模型深度剪枝技術(shù)

        SANA 1.5引入了模型深度剪枝技術(shù),通過分析Transformer塊的輸入輸出相似性,識別并保留關(guān)鍵塊,實現(xiàn)高效的模型壓縮。這種方法受Minitron啟發(fā),頭部和尾部塊的重要性較高,而中間層則主要用于逐步優(yōu)化生成結(jié)果。剪枝后,通過少量微調(diào)即可恢復(fù)模型質(zhì)量,實現(xiàn)靈活的模型配置。實驗表明,剪枝后的16億參數(shù)模型能達到與完整的48億參數(shù)模型相近的質(zhì)量。

        3. 推理時擴展策略

        SANA 1.5提出了一種推理期間擴展策略,通過增加采樣次數(shù)而非增加去噪步驟來提升生成質(zhì)量。該策略利用視覺語言模型(VLM)對生成的圖像進行評價和篩選,選擇與文本提示匹配度最高的圖像。實驗結(jié)果顯示,這種方法將GenEval分數(shù)從0.72提升至0.80,顯著提高了生成圖像的質(zhì)量和準確性。

        4. 內(nèi)存高效優(yōu)化器

        為了實現(xiàn)大模型的高效訓(xùn)練與微調(diào),SANA 1.5使用了CAME-8bit優(yōu)化器,它比AdamW-32bit減少了約8倍的內(nèi)存使用,同時保持訓(xùn)練穩(wěn)定性。這使得在消費級GPU上微調(diào)數(shù)十億參數(shù)的模型成為可能。

        5. SANA 1.5的性能

        SANA 1.5在GenEval基準測試中達到了最先進的性能。與傳統(tǒng)方法相比,其訓(xùn)練收斂速度快2.5倍,GenEval分數(shù)從0.66提升至0.80。SANA-4.8B模型的參數(shù)數(shù)量遠小于其他先進模型,但生成質(zhì)量卻能達到甚至超越它們。此外,SANA 1.5在推理速度和吞吐量方面也具有顯著優(yōu)勢。

        6. SANA 1.0的核心創(chuàng)新

        SANA 1.0的核心創(chuàng)新在于其高效的設(shè)計:深度壓縮自動編碼器(32倍壓縮比)、線性DiT(線性注意力機制,降低計算復(fù)雜度)、僅解碼文本編碼器(Gemma模型)以及高效的訓(xùn)練和采樣方法(Flow-DPM-Solver)。這些創(chuàng)新使得SANA-0.6B模型在保持與大型擴散模型相當(dāng)?shù)纳少|(zhì)量的同時,模型體積縮小了20倍,數(shù)據(jù)處理能力提升了100倍以上,甚至能在普通筆記本電腦上運行。

        總而言之,SANA 1.5通過高效的模型增長、深度剪枝和推理時擴展策略,在文本生成圖像任務(wù)中取得了顯著的成果,為構(gòu)建高效可擴展的大模型提供了新的思路。


        聯(lián)系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 91麻豆精品国产自产在线观看亚洲 | 免费人成大片在线观看播放| 亚洲色欲一区二区三区在线观看| 亚洲AV无码国产精品永久一区| 毛色毛片免费观看| 中文字幕亚洲精品无码| 最近的中文字幕大全免费版| 国产精品亚洲精品观看不卡| 亚洲人成网站免费播放| 亚洲私人无码综合久久网| 午夜dj免费在线观看| 粉色视频在线观看www免费| 亚洲国产精品成人| 中文字幕在线观看免费| 少妇中文字幕乱码亚洲影视| 亚洲成年人免费网站| 亚洲人成电影网站色| 亚洲人成影院在线观看| 久久成人a毛片免费观看网站| 亚洲电影在线免费观看| 成人免费网站在线观看| 七次郎成人免费线路视频 | 又爽又高潮的BB视频免费看 | 国产麻豆一精品一AV一免费| 久久久亚洲欧洲日产国码二区| 免费观看激色视频网站bd | 皇色在线视频免费网站| 精品亚洲国产成人av| 国产精品成人观看视频免费| 亚洲日韩精品无码专区加勒比☆| 国产一区二区三区在线观看免费| 亚洲区视频在线观看| 日本高清免费网站| 久久九九免费高清视频| 亚洲国产精品成人综合久久久 | 国产精品色拉拉免费看| 国产99久久亚洲综合精品| 亚洲AV综合色区无码一区爱AV| 青青草a免费线观a| 久久久久免费视频| 亚洲第一成人在线|