這個(gè)團(tuán)隊(duì)做了OpenAI沒Open的技術(shù),開源OpenRLHF讓對齊大模型超簡單

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:這個(gè)團(tuán)隊(duì)做了OpenAI沒Open的技術(shù),開源OpenRLHF讓對齊大模型超簡單
關(guān)鍵字:模型,字節(jié)跳動(dòng),算法,內(nèi)存,張量
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:Panda隨著大型語言模型(LLM)規(guī)模不斷增大,其性能也在不斷提升。盡管如此,LLM 依然面臨著一個(gè)關(guān)鍵難題:與人類的價(jià)值和意圖對齊。在解決這一難題方面,一種強(qiáng)大的技術(shù)是根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。
但是,隨著模型越來越大,RLHF 通常需要維持多個(gè)模型以及越來越復(fù)雜的學(xué)習(xí)流程,這又會(huì)導(dǎo)致內(nèi)存和計(jì)算資源需求增長。舉個(gè)例子,近端策略優(yōu)化(PPO,這是 RLHF 常用的一種算法)需要在訓(xùn)練過程中維持四個(gè)模型。
由此,當(dāng)語言模型的參數(shù)規(guī)模超過 700 億時(shí),為了訓(xùn)練和協(xié)調(diào)多個(gè)模型,所需的計(jì)算資源和調(diào)度復(fù)雜性會(huì)顯著增長 —— 這是當(dāng)前的架構(gòu)設(shè)計(jì)難以滿足的需求。
Transformer 強(qiáng)化學(xué)習(xí)(TRL)、ColossalChat(CAIChat)和 DeepSpeed-Chat(DSChat)等現(xiàn)有的開源 RLHF 框架是依靠零冗余優(yōu)化器(Zero Redundancy Optimizer/ZeRO),來將 RLHF 訓(xùn)練涉及的四個(gè)模型配置到同一臺(tái) GPU 上。這個(gè)過程被稱為 co-location,即空間并置。
但是,隨著模型參數(shù)規(guī)模超過 700 億,在內(nèi)存有限
原文鏈接:這個(gè)團(tuán)隊(duì)做了OpenAI沒Open的技術(shù),開源OpenRLHF讓對齊大模型超簡單
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)