AIGC動態歡迎閱讀
內容摘要:
導讀作者為StormBlafe
原文來自知乎,地址:https://zhuanlan.zhihu.com/p/708059967
本文只做學術/技術分享,如有侵權,聯系刪文。01開發方法分類1、領域知識注入:Continue PreTraining(增量預訓練): 一般垂直大模型是基于通用大模型進行二次的開發,需要用領域內的語料進行繼續預訓練。
2、知識召回(激發):SFT( Supervised Finetuning,有監督微調): 通過SFT可以激發大模型理解領域內的各種問題并進行回答的能力。
3、基礎偏好對齊:獎勵模型(RM)、強化學習(RL),可以讓大模型的回答對齊人們的偏好,比如行文的風格。
4、高階偏好對齊:RLHF(人類反饋強化學習訓練)、DPO(直接偏好優化)。
NOTES:要想大模型有領域知識,得增量預訓練(靠指令微調記知識不靠譜,不是幾十w條數據能做到的)02開發階段分類模型分成3個階段:
NOTES:大語言模型的一般訓練過程(3步):1、預訓練學知識,2、指令微調學格式,3、強化學習對齊人類偏好(1)、第一階段:(Continue PreTraining)增量預訓
原文鏈接:大模型二次開發技術選型思路
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...