多模態大模型: 盤點&Highlights part1——從BLIP到LLaVA

AIGC動態歡迎閱讀

原標題：多模態大模型: 盤點&Highlights part1——從BLIP到LLaVA
關鍵字：模型,數據,報告,圖像,任務
文章來源：智猩猩GenAI
內容字數：0字

內容摘要：

講座預告11月1日上午10點，南開大學在讀博士李森茂，將以《基于擴散模型編碼器模塊的推理加速》為主題進行直播講解，歡迎掃名~導讀Hi大家好，我叫延捷，是一名計算機視覺算法工程師，也是叉燒的老朋友了。我們計劃發布一系列關于多模態大模型的文章，幫助大家快速、精準地了解多模態大模型的前世今生，并且深入各個多模態大模型領域優秀的工作，希望能給大家一個脈絡性的盤點，一起學習，共同進步。01Instruction多模態大模型當前的發展如火如荼，隨著LLM技術的不斷發展、完善，把圖像、視頻、語音、遙感等多模態信息和文本結合在一起成了當前的一大熱點。這里我將發表一系列關于多模態大模型的技術文章，我并不會過多列舉一些不必要的論文細節和指標，而是會著重講述：
“心路歷程”：一個系列工作逐步發展的路徑，作者是如何根據當前工作的缺點一步步優化的，并且會總結出每篇工作的highlight，在精而不在多；
“數據細節”：各個工作中對數據處理的細節，包括但不限于數據的收集，采樣時的分布，如何清洗/重建noisy數據，如何進行數據預處理，視頻抽樣的方案等，這些對算法工程師來說是同樣重要的一環；
“前人肩膀”：各個

原文鏈接：多模態大模型: 盤點&Highlights part1——從BLIP到LLaVA