訓(xùn)練視覺語言模型VLM的經(jīng)驗(yàn)

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:訓(xùn)練視覺語言模型VLM的經(jīng)驗(yàn)
關(guān)鍵字:數(shù)據(jù),知乎,侵權(quán),業(yè)務(wù),模型
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
講座預(yù)告11月1日上午10點(diǎn),南開大學(xué)在讀博士李森茂,將以《基于擴(kuò)散模型編碼器模塊的推理加速》為主題進(jìn)行直播講解,歡迎掃名~導(dǎo)讀作者為lym
原文來自知乎,地址:https://zhuanlan.zhihu.com/p/890327005
本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。如果可以用prompt解決,盡量用prompt解決,因?yàn)橛?xùn)練(精調(diào))的模型往往通用能力會下降,訓(xùn)練和長期部署成本都比較高,這個(gè)成本也包括時(shí)間成本。
基于prompt確實(shí)不行(情況包括格式輸出不穩(wěn)定、格式輸出基本不對、任務(wù)不完全會、任務(wù)完全不會等情況,難度逐漸加大),選擇上SFT微調(diào)。
業(yè)務(wù)場景基本用不到強(qiáng)化學(xué)習(xí),強(qiáng)化解決的是最后一公里的問題,可以理解為有兩種非常接近的輸出(這兩種輸出都非常接近目標(biāo)輸出,此時(shí)已經(jīng)解決了90%的問題),強(qiáng)化學(xué)習(xí)會對相同的輸入,打壓其中一種不希望的輸出,同時(shí)增強(qiáng)另一種更接近目標(biāo)的希望的輸出(從DPO loss就可以看出)。強(qiáng)化是用來應(yīng)對細(xì)微輸出差異的,并且業(yè)務(wù)場景優(yōu)先用DPO,DPO只需要pair對數(shù)據(jù),更好構(gòu)造。PPO的reward model幾乎沒有開源的,需要的數(shù)據(jù)更多
原文鏈接:訓(xùn)練視覺語言模型VLM的經(jīng)驗(yàn)
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號