AIGC動態歡迎閱讀
原標題:從BLIP-2到Qwen2-VL,多模態大模型的技術點總結
關鍵字:模型,視覺,數據,指令,侵權
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
開講預約導讀原文來自知乎,作者為jewellery,標題為《多模態大模型技術點總結》。作者對BLIP-2、InstructBLIP、LLaVA、LLaVA-1.5、MiniGPT-4、MiniGPT-v2、Qwen-VL、Qwen2-VL,這8款模型的模型結構、訓練過程、預訓練階段及改進點等技術點進行了詳細總結。原文地址:https://zhuanlan.zhihu.com/p/717586003
本文只做學術/技術分享,如有侵權,聯系刪文。總結01BLIP2論文地址:https://arxiv.org/pdf/2301.12597
發布時間:2023.06.15
模型結構:
Vision Encoder:ViT-L/14
VL Adapter:Q-Former
LLM:OPT (decoder-based),FlanT5(encoder-decoder-based)Overview of BLIP-2s framework
論文主要提出Q-Former(Lightweight Querying Transformer)用于連接模態之間的gap。BLIP-2整體架構包括三個模塊:視覺編
原文鏈接:從BLIP-2到Qwen2-VL,多模態大模型的技術點總結
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...