從零訓練一個多模態(tài)LLM：預訓練+指令微調+對齊+融合多模態(tài)+鏈接外部系統(tǒng)

AIGC動態(tài)歡迎閱讀

原標題：從零訓練一個多模態(tài)LLM：預訓練+指令微調+對齊+融合多模態(tài)+鏈接外部系統(tǒng)
關鍵字：模型,數(shù)據(jù),指令,任務,文本
文章來源：智猩猩AGI
內容字數(shù)：0字

內容摘要：

7月25日上午10點，中國科學技術大學與微軟亞洲研究院聯(lián)合培養(yǎng)博士生張博文將在智猩猩直播講解微軟亞洲研究院開源成果GaussianCube，主題為《結構化3DGS為高質量3D生成帶來新思路》。歡迎掃名~本文嘗試梳理一個完整的多模態(tài)LLM的訓練流程。包括模型結構選擇、數(shù)據(jù)預處理、模型預訓練、指令微調、對齊、融合多模態(tài)以及鏈接外部系統(tǒng)等環(huán)節(jié)。
01準備階段1 模型結構
目前主要有三種模型架構，基于Transformer解碼器，基于General Language Model，以及混合專家模型。這一步可以直接選擇開源的的基座模型，例如基于Transformer解碼器架構的LLaMA模型族，模型結構及一些重要參數(shù)如下圖。假設選擇LLaMA-65B，Tokenizer選擇LLaMA的基于BPE算法構造的tokenizer。如果想要擴展詞表，可以在目標語言上訓練好詞表后和LLaMA的詞表merge在一起。
02預訓練數(shù)據(jù)1 數(shù)據(jù)源
根據(jù)Chinchilla 的scaling law，要達到最優(yōu)的計算利用率，65B模型對應的訓練token數(shù)量應該達到1.4T。當前用于訓練LLM的數(shù)據(jù)來源很多，但

原文鏈接：從零訓練一個多模態(tài)LLM：預訓練+指令微調+對齊+融合多模態(tài)+鏈接外部系統(tǒng)