這個(gè)團(tuán)隊(duì)做了OpenAI沒Open的技術(shù)，開源OpenRLHF讓對齊大模型超簡單

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：這個(gè)團(tuán)隊(duì)做了OpenAI沒Open的技術(shù)，開源OpenRLHF讓對齊大模型超簡單
關(guān)鍵字：模型,字節(jié)跳動(dòng),算法,內(nèi)存,張量
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：Panda隨著大型語言模型（LLM）規(guī)模不斷增大，其性能也在不斷提升。盡管如此，LLM 依然面臨著一個(gè)關(guān)鍵難題：與人類的價(jià)值和意圖對齊。在解決這一難題方面，一種強(qiáng)大的技術(shù)是根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）。
但是，隨著模型越來越大，RLHF 通常需要維持多個(gè)模型以及越來越復(fù)雜的學(xué)習(xí)流程，這又會(huì)導(dǎo)致內(nèi)存和計(jì)算資源需求增長。舉個(gè)例子，近端策略優(yōu)化（PPO，這是 RLHF 常用的一種算法）需要在訓(xùn)練過程中維持四個(gè)模型。
由此，當(dāng)語言模型的參數(shù)規(guī)模超過 700 億時(shí)，為了訓(xùn)練和協(xié)調(diào)多個(gè)模型，所需的計(jì)算資源和調(diào)度復(fù)雜性會(huì)顯著增長 —— 這是當(dāng)前的架構(gòu)設(shè)計(jì)難以滿足的需求。
Transformer 強(qiáng)化學(xué)習(xí)（TRL）、ColossalChat（CAIChat）和 DeepSpeed-Chat（DSChat）等現(xiàn)有的開源 RLHF 框架是依靠零冗余優(yōu)化器（Zero Redundancy Optimizer/ZeRO），來將 RLHF 訓(xùn)練涉及的四個(gè)模型配置到同一臺(tái) GPU 上。這個(gè)過程被稱為 co-location，即空間并置。
但是，隨著模型參數(shù)規(guī)模超過 700 億，在內(nèi)存有限

原文鏈接：這個(gè)團(tuán)隊(duì)做了OpenAI沒Open的技術(shù)，開源OpenRLHF讓對齊大模型超簡單