AIGC動態歡迎閱讀
原標題:ICLR 2024|把圖像視為外語,快手、北大多模態大模型媲美DALLE-3
關鍵字:圖像,快手,視覺,分詞,模型
文章來源:機器之心
內容字數:6753字
內容摘要:
機器之心報道
機器之心編輯部動態視覺分詞統一圖文表示,快手與北大合作提出基座模型 LaVIT 刷榜多模態理解與生成任務。
當前的大型語言模型如 GPT、LLaMA 等在自然語言處理領域取得了顯著進展,能夠理解和生成復雜的文本內容。但你是否想過,如果能夠將大語言模型這強大的理解和生成能力遷移到多模態數據上,就可以輕松理解海量的圖像與視頻,并輔助創作圖文并茂的內容。近期,來自快手和北大合作的最新多模態大模型 LaVIT, 正在讓這個想法逐步變為現實。論文標題:Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
論文地址:https://arxiv.org/abs/2309.04669
代碼模型地址:https://github.com/jy0205/LaVIT
模型總覽
LaVIT 作為一個新型的通用多模態基礎模型,可以像語言模型那樣,既能夠理解也能生成視覺內容。LaVIT 繼承了大語言模型成功的訓練范式,即以自回歸的方式預測下一個圖像或文本 token。在訓練完成后,其可
原文鏈接:ICLR 2024|把圖像視為外語,快手、北大多模態大模型媲美DALLE-3
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...