AIGC動態歡迎閱讀
內容摘要:
直播預告 | 6月6日晚7點,「智猩猩AI新青年講座」第238講正式開講,香港大學CVMI Lab在讀博士 楊霽晗將直播講解《V-IRL:根植于真實世界的AI Agents》,歡迎掃名導讀本文來自知乎,作者為Dreamweaver。本文只做學術/技術分享,如有侵權,聯系刪文。
本文回顧了多模態LLM (視覺-語言模型) 近一年來的模型架構演進,對其中有代表性的工作進行了精煉總結。
原文鏈接:
https://zhuanlan.zhihu.com/p/693885420首先,推薦一篇啟發我很多的綜述和對應的項目地址A Survey on Multimodal Large Language Models
arxiv.org/abs/2306.13549Awesome-Multimodal-Large-Language-Models
github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
這篇綜述一張圖總結了多模態LLM的典型架構:
BLIP【2022.01發布】https://arxiv.org/abs/2201.1208
原文鏈接:多模態視覺-語言大模型的架構演進
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...