基于 LoRA 的 RLHF: 記一次不太成功但有趣的百川大模型經(jīng)歷
AIGC動態(tài)歡迎閱讀
原標(biāo)題:基于 LoRA 的 RLHF: 記一次不太成功但有趣的百川大模型經(jīng)歷
關(guān)鍵字:模型,報告,騰訊,數(shù)據(jù),過程
文章來源:算法邦
內(nèi)容字?jǐn)?shù):13419字
內(nèi)容摘要:
智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會,阿里巴巴通義千問大模型技術(shù)負(fù)責(zé)人周暢,潞晨科技創(chuàng)始人尤洋,生數(shù)科技CEO唐家渝,優(yōu)必選研究院執(zhí)行院長焦繼超,科大訊飛人形機(jī)器人首席科學(xué)家季超,DeepWisdom合伙人徐宗澤,騰訊研究科學(xué)家張馳,前Meta首席工程負(fù)責(zé)人胡魯輝等首批嘉賓已確認(rèn)帶來演講和報告,歡迎報名。項目地址:https://github.com/beyondguo/LLM-Tuning眾所周知,整個 RLHF (基于人類反饋的強(qiáng)化學(xué)習(xí)) 分為這么三步:
SFT (Supervised Fine-Tuning): 有監(jiān)督的微調(diào),使用正常的 instruction following 或者對話的樣本,來訓(xùn)練模型的基礎(chǔ)對話、聽從 prompt 的能力;
RM (Reward Modeling): 基于人類的偏好和標(biāo)注,來訓(xùn)練一個能模擬人偏好的打分模型;
RL (Reinforcement Learning): 在前面的 SFT 模型的基礎(chǔ)上,借助 RM 提供反饋,來不斷通過 PPO 的強(qiáng)化學(xué)習(xí)框架來調(diào)整模型的行為。為了節(jié)省訓(xùn)練資源,快速了解整個 R
原文鏈接:基于 LoRA 的 RLHF: 記一次不太成功但有趣的百川大模型經(jīng)歷
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統(tǒng)思考。