北大字節(jié)開辟圖像生成新范式!超越Sora核心組件DiT,不再預(yù)測下一個token

AIGC動態(tài)歡迎閱讀
原標(biāo)題:北大字節(jié)開辟圖像生成新范式!超越Sora核心組件DiT,不再預(yù)測下一個token
關(guān)鍵字:字節(jié)跳動,模型,圖像,分辨率,峰會
文章來源:量子位
內(nèi)容字?jǐn)?shù):3953字
內(nèi)容摘要:
魚羊 發(fā)自 凹非寺量子位 | 公眾號 QbitAI北大和字節(jié)聯(lián)手搞了個大的:
提出圖像生成新范式,從預(yù)測下一個token變成預(yù)測下一級分辨率,效果超越Sora核心組件Diffusion Transformer(DiT)。
并且代碼開源,短短幾天已經(jīng)攬下1.3k標(biāo)星,登上GitHub趨勢榜。
具體是個什么效果?
實驗數(shù)據(jù)上,這個名為VAR(Visual Autoregressive Modeling)的新方法不僅圖像生成質(zhì)量超過DiT等傳統(tǒng)SOTA,推理速度也提高了20+倍。
這也是自回歸模型首次在圖像生成領(lǐng)域擊敗DiT。
直觀感受上,話不多說,直接看圖:
值得一提的是,研究人員還在VAR上,觀察到了大語言模型同款的Scaling Laws和零樣本任務(wù)泛化。
論文代碼上線,已經(jīng)引發(fā)不少專業(yè)討論。
有網(wǎng)友表示有被驚到,頓時覺得其他擴散架構(gòu)的論文有點索然無味。
還有人認(rèn)為,這是一種通向Sora的更便宜的潛在途徑,計算成本可降低一個乃至多個數(shù)量級。
預(yù)測下一級分辨率簡單來說,VAR的核心創(chuàng)新,就是用預(yù)測下一級分辨率,替代了預(yù)測下一個token的傳統(tǒng)自回歸方法。
VAR的訓(xùn)練分為兩個階段。
第一
原文鏈接:北大字節(jié)開辟圖像生成新范式!超越Sora核心組件DiT,不再預(yù)測下一個token
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號