如何從零訓(xùn)練多模態(tài)大模型(預(yù)訓(xùn)練方向)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:如何從零訓(xùn)練多模態(tài)大模型(預(yù)訓(xùn)練方向)
關(guān)鍵字:知乎,侵權(quán),數(shù)據(jù),階段,指令
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
開(kāi)講預(yù)約導(dǎo)讀原文來(lái)自知乎,作者為HelloWorld,標(biāo)題為《LLaVA(六)訓(xùn)練你自己的多模態(tài)模型》。作者詳細(xì)介紹了如何從零訓(xùn)練LLaVA v1.5多模態(tài)模型,包括特征對(duì)齊和視覺(jué)指令微調(diào)兩個(gè)階段的訓(xùn)練流程、數(shù)據(jù)準(zhǔn)備、啟動(dòng)腳本及相關(guān)注意事項(xiàng)。原文地址:https://zhuanlan.zhihu.com/p/718354385
本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。本文參考官方教程[1]介紹如何訓(xùn)練 LLaVA v1.5 多模態(tài)模型。LLaVA 訓(xùn)練包括特征對(duì)齊階段(feature alignment stage)和視覺(jué)指令微調(diào)階段(visual instruction tuning stage),其中特征對(duì)齊階段使用 LAION-CC-SBU 數(shù)據(jù)集的 558K 子集(記為 LLaVA-Pretrain),目的是訓(xùn)練 MLP connector(或稱(chēng)為 projector),而視覺(jué)指令微調(diào)階段使用 GPT-4 生成的 150K 條多模態(tài)指令跟隨數(shù)據(jù)和來(lái)自學(xué)術(shù)任務(wù)的 515K 條 VQA 數(shù)據(jù)引導(dǎo) LLaVA 模型遵從多模態(tài)指令。
官方給出的 LLaVA v1.5 使用了 8 個(gè)
原文鏈接:如何從零訓(xùn)練多模態(tài)大模型(預(yù)訓(xùn)練方向)
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介: