抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復現(xiàn)
AIGC動態(tài)歡迎閱讀
原標題:抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復現(xiàn)
關鍵字:模型,騰訊,研究人員,人類,數(shù)據(jù)
文章來源:量子位
內(nèi)容字數(shù):7470字
內(nèi)容摘要:
西風 發(fā)自 凹非寺量子位 | 公眾號 QbitAIOpenAI的秘密武器、ChatGPT背后功臣RLHF,被開源了。
來自Hugging Face、加拿大蒙特利爾Mila研究所、網(wǎng)易伏羲AI Lab的研究人員從零開始復現(xiàn)了OpenAI的RLHF pipeline,羅列了25個關鍵實施細節(jié)。
最終成功展示了隨著模型大小的增加,響應質(zhì)量顯著提升的scaling行為,其中2.8B、6.9B的Pythia模型在性能上超過了OpenAI發(fā)布的1.3B checkpoint。
沒有寫在論文中,但被作者在推文中po出來的,還有一個初步的Pythia 1.4B實驗,根據(jù)GPT-4的數(shù)據(jù)顯示,這個1.4B模型非常接近OpenAI的1.3B性能(由于GPT4成本過高,只進行了一次評估)。
研究人員表示,他們的這一“配方”的獨特之處在于對SFT、RM和PPO使用了單一的學習率,所以再重現(xiàn)他們的工作會變得更加簡單。
作者已公開發(fā)布了訓練好的模型checkpoint和代碼。
順便一提,Huggingface最近上了一把新聞,抱抱臉現(xiàn)在是正式譯名了:
寫在前頭大語言模型的功能實質(zhì)上就是在玩“詞語接龍”——以給定的
原文鏈接:抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復現(xiàn)
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關文章
暫無評論...