AIGC動態歡迎閱讀
原標題:多模態大模型: 盤點&Highlights part1——從BLIP到LLaVA
關鍵字:模型,數據,報告,圖像,任務
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
講座預告11月1日上午10點,南開大學在讀博士李森茂,將以《基于擴散模型編碼器模塊的推理加速》為主題進行直播講解,歡迎掃名~導讀Hi大家好,我叫延捷,是一名計算機視覺算法工程師,也是叉燒的老朋友了。我們計劃發布一系列關于多模態大模型的文章,幫助大家快速、精準地了解多模態大模型的前世今生,并且深入各個多模態大模型領域優秀的工作,希望能給大家一個脈絡性的盤點,一起學習,共同進步。01Instruction多模態大模型當前的發展如火如荼,隨著LLM技術的不斷發展、完善,把圖像、視頻、語音、遙感等多模態信息和文本結合在一起成了當前的一大熱點。這里我將發表一系列關于多模態大模型的技術文章,我并不會過多列舉一些不必要的論文細節和指標,而是會著重講述:
“心路歷程”:一個系列工作逐步發展的路徑,作者是如何根據當前工作的缺點一步步優化的,并且會總結出每篇工作的highlight,在精而不在多;
“數據細節”:各個工作中對數據處理的細節,包括但不限于數據的收集,采樣時的分布,如何清洗/重建noisy數據,如何進行數據預處理,視頻抽樣的方案等,這些對算法工程師來說是同樣重要的一環;
“前人肩膀”:各個
原文鏈接:多模態大模型: 盤點&Highlights part1——從BLIP到LLaVA
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...