最強文生圖模型架構曝光！28頁論文詳解技術細節，與Sora“師出同門”

AIGC動態2年前 (2024)發布智東西

AIGC動態歡迎閱讀

原標題：最強文生圖模型架構曝光！28頁論文詳解技術細節，與Sora“師出同門”
關鍵字：模型,圖像,提示,文本,能力
文章來源：智東西
內容字數：8435字

內容摘要：

消費級顯卡可訓，模型權重將開源。
作者|香草
編輯|李水青
智東西3月6日報道，昨天下午，明星創企Stability AI發布Stable Diffusion 3（SD3）論文，首度披露其最強文生圖大模型背后的技術細節，并放出更多新鮮的生成示例。
▲Stable Diffusion 3模型技術原理論文
與OpenAI近期爆火的文生視頻模型Sora一樣，SD3采用了擴散Transformer架構DiT，并在其基礎上進行改進。新架構名為MMDiT，其主要突破點在于對文字、圖像兩種模態的數據使用了兩組的權重，并通過注意力機制進行連接，這使得信息可以在文本和圖像之間流動，大大提升了模型的語義理解和文字渲染能力。
在SD3放出的示例圖中，包含文字渲染部分的圖像占了很例。下圖的提示詞分別為：漂亮的像素藝術，畫面是一個魔法師和懸浮文字“Achievement unlocked: Diffusion models can spell now”（成就已解鎖：擴散模型可以拼寫了）；青蛙坐在20世紀50年代的一家餐館里，穿著皮夾克，頭戴禮帽，桌上有一個巨大的漢堡和一個寫著“froggy friday

原文鏈接：最強文生圖模型架構曝光！28頁論文詳解技術細節，與Sora“師出同門”