訓(xùn)練視覺語言模型VLM的經(jīng)驗(yàn)

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布智猩猩GenAI

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：訓(xùn)練視覺語言模型VLM的經(jīng)驗(yàn)
關(guān)鍵字：數(shù)據(jù),知乎,侵權(quán),業(yè)務(wù),模型
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

講座預(yù)告11月1日上午10點(diǎn)，南開大學(xué)在讀博士李森茂，將以《基于擴(kuò)散模型編碼器模塊的推理加速》為主題進(jìn)行直播講解，歡迎掃名~導(dǎo)讀作者為lym
原文來自知乎，地址：https://zhuanlan.zhihu.com/p/890327005
本文只做學(xué)術(shù)/技術(shù)分享，如有侵權(quán)，聯(lián)系刪文。如果可以用prompt解決，盡量用prompt解決，因?yàn)橛?xùn)練（精調(diào)）的模型往往通用能力會下降，訓(xùn)練和長期部署成本都比較高，這個(gè)成本也包括時(shí)間成本。
基于prompt確實(shí)不行（情況包括格式輸出不穩(wěn)定、格式輸出基本不對、任務(wù)不完全會、任務(wù)完全不會等情況，難度逐漸加大），選擇上SFT微調(diào)。
業(yè)務(wù)場景基本用不到強(qiáng)化學(xué)習(xí)，強(qiáng)化解決的是最后一公里的問題，可以理解為有兩種非常接近的輸出（這兩種輸出都非常接近目標(biāo)輸出，此時(shí)已經(jīng)解決了90%的問題），強(qiáng)化學(xué)習(xí)會對相同的輸入，打壓其中一種不希望的輸出，同時(shí)增強(qiáng)另一種更接近目標(biāo)的希望的輸出（從DPO loss就可以看出）。強(qiáng)化是用來應(yīng)對細(xì)微輸出差異的，并且業(yè)務(wù)場景優(yōu)先用DPO，DPO只需要pair對數(shù)據(jù)，更好構(gòu)造。PPO的reward model幾乎沒有開源的，需要的數(shù)據(jù)更多

原文鏈接：訓(xùn)練視覺語言模型VLM的經(jīng)驗(yàn)

聯(lián)系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：

閱讀原文

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

訓(xùn)練視覺語言模型VLM的經(jīng)驗(yàn)

AIGC動(dòng)態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

與OpenAI o1技術(shù)理念相似，TDPO-R算法有效緩解獎(jiǎng)勵(lì)過優(yōu)化問題

西湖大學(xué)提出「 AI 科學(xué)家」 Nova，效果相比 SOTA 提升 2.5 倍

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

訓(xùn)練視覺語言模型VLM的經(jīng)驗(yàn)

AIGC動(dòng)態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

與OpenAI o1技術(shù)理念相似，TDPO-R算法有效緩解獎(jiǎng)勵(lì)過優(yōu)化問題

西湖大學(xué)提出 「 AI 科學(xué)家」 Nova，效果相比 SOTA 提升 2.5 倍

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

西湖大學(xué)提出「 AI 科學(xué)家」 Nova，效果相比 SOTA 提升 2.5 倍