前OpenAI聯(lián)創(chuàng)、ChatGPT負責人John Schulman:大模型的升級秘訣
AIGC動態(tài)歡迎閱讀
原標題:前OpenAI聯(lián)創(chuàng)、ChatGPT負責人John Schulman:大模型的升級秘訣
關(guān)鍵字:模型,任務(wù),數(shù)據(jù),能力,人類
文章來源:人工智能學(xué)家
內(nèi)容字數(shù):0字
內(nèi)容摘要:
8月6日,OpenAI聯(lián)合創(chuàng)始人、ChatGPT架構(gòu)師John Schulman宣布離職,將加入另一家由前OpenAI員工Dario Amodei創(chuàng)辦的大模型公司Anthropic。
近9年前,Schulman在研究生畢業(yè)后加入OpenAI,成為創(chuàng)始團隊的一員。他是深度強化學(xué)習的早期先驅(qū)之一,很多人不知道的是,他也是ChatGPT項目的負責人,是他領(lǐng)導(dǎo)了ChatGPT的秘密武器RLHF(人類反饋的強化學(xué)習)技術(shù)的研究與開發(fā)。
在負責ChatGPT之前,他發(fā)明了廣泛應(yīng)用的近端策略優(yōu)化算法(PPO),這實際上也是ChatGPT訓(xùn)練的一部分。他還發(fā)明了信任區(qū)域策略優(yōu)化(TRPO),對OpenAI Gym、OpenAI Benchmark以及現(xiàn)代深度學(xué)的許多元學(xué)習算法作出了重要貢獻。值得一提的是,其博士導(dǎo)師是強化學(xué)習領(lǐng)域開拓者、加州大學(xué)伯克利分校教授Pieter Abbeel。
Schulman兼具研究視野,又有豐富的工程實踐基礎(chǔ)。從碩士階段開始,他就開始研究強化學(xué)習算法,從數(shù)據(jù)收集與語言模型的訓(xùn)練與交互,對大模型技術(shù)棧的不同部分都有豐富的經(jīng)驗與探索。或許,他是對OpenAI大模型的獨門
原文鏈接:前OpenAI聯(lián)創(chuàng)、ChatGPT負責人John Schulman:大模型的升級秘訣
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:
作者簡介: