AIGC動態歡迎閱讀
原標題:視頻、圖像、文本,只需基于下一個Token預測:智源Emu3發布,驗證多模態模型新范式
關鍵字:模型,視覺,數據,圖像,視頻
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心發布
機器之心編輯部OpenAI 前首席科學家、聯合創始人 Ilya Sutskever 曾在多個場合表達觀點:只要能夠非常好的預測下一個 token,就能幫助人類達到通用人工智能(AGI)。
雖然,下一 token 預測已在大語言模型領域實現了 ChatGPT 等突破,但是在多模態模型中的適用性仍不明確,多模態任務仍然由擴散模型(如 Stable Diffusion)和組合方法(如結合 CLIP 視覺編碼器和 LLM)所主導。
2024 年 10 月 21 日,智源研究院正式發布原生多模態世界模型 Emu3。該模型只基于下一個 token 預測,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態數據的理解和生成。Emu3 在圖像生成、視頻生成、視覺語言理解等任務中超過了 SDXL 、LLaVA、OpenSora 等知名開源模型,但是無需擴散模型、CLIP 視覺編碼器、預訓練的 LLM 等技術,只需要預測下一個 token。在圖像生成任務中,基于人類偏好評測,Emu3 優于 SD-1.5 與 SDXL 模型。在視覺語言理解任務中,對于 12 項基準測試的平均得分,Emu3
原文鏈接:視頻、圖像、文本,只需基于下一個Token預測:智源Emu3發布,驗證多模態模型新范式
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...