
AIGC動態歡迎閱讀
原標題:統一transformer與diffusion!Meta融合新方法劍指下一代多模態王者
關鍵字:模型,圖像,文本,語言,向量
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:陳陳本文引入了 Transfusion,這是一種可以在離散和連續數據上訓練多模態模型的方法。一般來說,多模態生成模型需要能夠感知、處理和生成離散元素(如文本或代碼)和連續元素(如圖像、音頻和視頻數據)。
在離散模態領域,以預測下一個詞為目標的語言模型占據主導地位,而在生成連續模態方面,擴散模型及其泛化形式則是當前最先進技術。
研究者一直試圖將語言模型與擴散模型結合,一種方法是直接擴展語言模型,使其能夠利用擴散模型作為一個工具,或者將一個預訓練的擴散模型嫁接到語言模型上。另一種替代方案是對連續模態進行量化處理,然后在離散的 token 上訓練一個標準的語言模型,這種方法雖然簡化了模型架構,但也會造成信息的丟失。
在這項工作中,來自 Meta 、 Waymo 等機構的研究者展示了通過訓練單個模型來預測離散文本 token 和擴散連續圖像,從而實現兩種模態的完全集成,且不會丟失任何信息。
具體而言,本文引入了一個訓練模型的新方法 Transfusion,能夠無縫地生成離散和連續的模態。Transfusion 將語言模型損失函數與擴散相結合,在混合模態序列上訓練單個 tra
原文鏈接:統一transformer與diffusion!Meta融合新方法劍指下一代多模態王者
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號