最強文生圖模型架構曝光!28頁論文詳解技術細節(jié),與Sora“師出同門”
AIGC動態(tài)歡迎閱讀
原標題:最強文生圖模型架構曝光!28頁論文詳解技術細節(jié),與Sora“師出同門”
關鍵字:模型,圖像,提示,文本,能力
文章來源:智東西
內容字數(shù):8435字
內容摘要:
消費級顯卡可訓,模型權重將開源。
作者|香草
編輯|李水青
智東西3月6日報道,昨天下午,明星創(chuàng)企Stability AI發(fā)布Stable Diffusion 3(SD3)論文,首度披露其最強文生圖大模型背后的技術細節(jié),并放出更多新鮮的生成示例。
▲Stable Diffusion 3模型技術原理論文
與OpenAI近期爆火的文生視頻模型Sora一樣,SD3采用了擴散Transformer架構DiT,并在其基礎上進行改進。新架構名為MMDiT,其主要突破點在于對文字、圖像兩種模態(tài)的數(shù)據(jù)使用了兩組的權重,并通過注意力機制進行連接,這使得信息可以在文本和圖像之間流動,大大提升了模型的語義理解和文字渲染能力。
在SD3放出的示例圖中,包含文字渲染部分的圖像占了很例。下圖的提示詞分別為:漂亮的像素藝術,畫面是一個魔法師和懸浮文字“Achievement unlocked: Diffusion models can spell now”(成就已解鎖:擴散模型可以拼寫了);青蛙坐在20世紀50年代的一家餐館里,穿著皮夾克,頭戴禮帽,桌上有一個巨大的漢堡和一個寫著“froggy friday
原文鏈接:最強文生圖模型架構曝光!28頁論文詳解技術細節(jié),與Sora“師出同門”
聯(lián)系作者
文章來源:智東西
作者微信:zhidxcom
作者簡介:智能產(chǎn)業(yè)新媒體!智東西專注報道人工智能主導的前沿技術發(fā)展,和技術應用帶來的千行百業(yè)產(chǎn)業(yè)升級。聚焦智能變革,服務產(chǎn)業(yè)升級。