AIGC動態歡迎閱讀
原標題:字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果
關鍵字:字節跳動,模型,文本,圖片,豆包
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com當前主流的視覺語言模型(VLM)主要基于大語言模型(LLM)進一步微調。因此需要通過各種方式將圖像映射到 LLM 的嵌入空間,然后使用自回歸方式根據圖像 token 預測答案。
在這個過程中,模態的對齊是通過文本 token 隱式實現的,如何做好這一步的對齊非常關鍵。
針對這一問題,大學、字節跳動豆包大模型團隊和中國科學院大學的研究人員提出了一種基于對比學習的文本 token 篩選方法(CAL),從文本中篩選出與圖像高度相關的 token,并加大其損失函數權重,從而實現更精準的多模態對齊。論文鏈接:https://arxiv.org/pdf/2405.17871
代碼鏈接:https://github.com/foundation-multimodal-m
原文鏈接:字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...