從零訓練一個多模態(tài)LLM:預訓練+指令微調+對齊+融合多模態(tài)+鏈接外部系統(tǒng)
AIGC動態(tài)歡迎閱讀
原標題:從零訓練一個多模態(tài)LLM:預訓練+指令微調+對齊+融合多模態(tài)+鏈接外部系統(tǒng)
關鍵字:模型,數(shù)據(jù),指令,任務,文本
文章來源:智猩猩AGI
內容字數(shù):0字
內容摘要:
7月25日上午10點,中國科學技術大學與微軟亞洲研究院聯(lián)合培養(yǎng)博士生張博文將在智猩猩直播講解微軟亞洲研究院開源成果GaussianCube,主題為《結構化3DGS為高質量3D生成帶來新思路》。歡迎掃名~本文嘗試梳理一個完整的多模態(tài)LLM的訓練流程。包括模型結構選擇、數(shù)據(jù)預處理、模型預訓練、指令微調、對齊、融合多模態(tài)以及鏈接外部系統(tǒng)等環(huán)節(jié)。
01準備階段1 模型結構
目前主要有三種模型架構,基于Transformer解碼器,基于General Language Model,以及混合專家模型。這一步可以直接選擇開源的的基座模型,例如基于Transformer解碼器架構的LLaMA模型族,模型結構及一些重要參數(shù)如下圖。假設選擇LLaMA-65B,Tokenizer選擇LLaMA的基于BPE算法構造的tokenizer。如果想要擴展詞表,可以在目標語言上訓練好詞表后和LLaMA的詞表merge在一起。
02預訓練數(shù)據(jù)1 數(shù)據(jù)源
根據(jù)Chinchilla 的scaling law,要達到最優(yōu)的計算利用率,65B模型對應的訓練token數(shù)量應該達到1.4T。當前用于訓練LLM的數(shù)據(jù)來源很多,但
原文鏈接:從零訓練一個多模態(tài)LLM:預訓練+指令微調+對齊+融合多模態(tài)+鏈接外部系統(tǒng)
聯(lián)系作者
文章來源:智猩猩AGI
作者微信:
作者簡介: