AIGC動態歡迎閱讀
原標題:顏水成/程明明新作!Sora核心組件DiT訓練提速10倍,Masked Diffusion Transformer V2開源
關鍵字:模型,圖像,語義,表征,步驟
文章來源:新智元
內容字數:5902字
內容摘要:
新智元報道編輯:LRS 好困
【新智元導讀】Masked Diffusion Transformer V2在ImageNet benchmark 上實現了1.58的FID score的新SoTA,并通過mask modeling表征學習策略大幅提升了DiT的訓練速度。DiT作為效果驚艷的Sora的核心技術之一,利用Difffusion Transfomer 將生成模型擴展到更大的模型規模,從而實現高質量的圖像生成。
然而,更大的模型規模導致訓練成本飆升。
為此,來自Sea AI Lab、南開大學、昆侖萬維2050研究院的顏水成和程明明研究團隊在ICCV 2023提出的Masked Diffusion Transformer利用mask modeling表征學習策略通過學義表征信息來大幅加速Diffusion Transfomer的訓練速度,并實現SoTA的圖像生成效果。論文地址:https://arxiv.org/abs/2303.14389
GitHub地址:https://github.com/sail-sg/MDT
近日,Masked Diffusion Transform
原文鏈接:顏水成/程明明新作!Sora核心組件DiT訓練提速10倍,Masked Diffusion Transformer V2開源
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。