ICLR 2024｜把圖像視為外語，快手、北大多模態(tài)大模型媲美DALLE-3

AIGC動態(tài)2年前 (2024)發(fā)布機(jī)器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：ICLR 2024｜把圖像視為外語，快手、北大多模態(tài)大模型媲美DALLE-3
關(guān)鍵字：圖像,快手,視覺,分詞,模型
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：6753字

內(nèi)容摘要：

機(jī)器之心報道
機(jī)器之心編輯部動態(tài)視覺分詞統(tǒng)一圖文表示，快手與北大合作提出基座模型 LaVIT 刷榜多模態(tài)理解與生成任務(wù)。
當(dāng)前的大型語言模型如 GPT、LLaMA 等在自然語言處理領(lǐng)域取得了顯著進(jìn)展，能夠理解和生成復(fù)雜的文本內(nèi)容。但你是否想過，如果能夠?qū)⒋笳Z言模型這強(qiáng)大的理解和生成能力遷移到多模態(tài)數(shù)據(jù)上，就可以輕松理解海量的圖像與視頻，并輔助創(chuàng)作圖文并茂的內(nèi)容。近期，來自快手和北大合作的最新多模態(tài)大模型 LaVIT, 正在讓這個想法逐步變?yōu)楝F(xiàn)實(shí)。論文標(biāo)題：Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
論文地址：https://arxiv.org/abs/2309.04669
代碼模型地址：https://github.com/jy0205/LaVIT
模型總覽
LaVIT 作為一個新型的通用多模態(tài)基礎(chǔ)模型，可以像語言模型那樣，既能夠理解也能生成視覺內(nèi)容。LaVIT 繼承了大語言模型成功的訓(xùn)練范式，即以自回歸的方式預(yù)測下一個圖像或文本 token。在訓(xùn)練完成后，其可

原文鏈接：ICLR 2024｜把圖像視為外語，快手、北大多模態(tài)大模型媲美DALLE-3