首個(gè)o1復(fù)現(xiàn)開(kāi)源RL框架OpenR來(lái)了,UCL、上交等高校聯(lián)合團(tuán)隊(duì)發(fā)布

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:首個(gè)o1復(fù)現(xiàn)開(kāi)源RL框架OpenR來(lái)了,UCL、上交等高校聯(lián)合團(tuán)隊(duì)發(fā)布
關(guān)鍵字:模型,步驟,數(shù)據(jù),報(bào)告,過(guò)程
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.comOpenR 研究團(tuán)隊(duì)成員包括:汪軍教授,倫敦大學(xué)學(xué)院(UCL)計(jì)算機(jī)系教授,阿蘭?圖靈研究所 Turing Fellow,其指導(dǎo)的 UCL 一年級(jí)博士生宋研。利物浦大學(xué)助理教授方蒙。上海交通大學(xué) Apex 和多智能體實(shí)驗(yàn)室張偉楠教授(上海交通大學(xué)計(jì)算機(jī)系教授、博士生導(dǎo)師、副系主任),溫穎副教授(上海交通大學(xué)約翰?霍普克羅夫特計(jì)算機(jī)科學(xué)中心副教授)以及其指導(dǎo)的博士生萬(wàn)梓煜、溫睦寧、朱家琛。張偉楠教授和溫穎副教授博士期間就讀于 UCL,指導(dǎo)教師為汪軍教授。香港科技大學(xué)(廣州)創(chuàng)校校長(zhǎng),倪明選(Lionel M. Ni),香港工程科學(xué)院院士,香港科技大學(xué)(廣州)講席教授。陳雷,香港科技大學(xué)(廣州)信息樞紐院長(zhǎng),講席教授。香港科技大學(xué)(廣州)一年級(jí)博士生劉安杰、龔子欽
原文鏈接:首個(gè)o1復(fù)現(xiàn)開(kāi)源RL框架OpenR來(lái)了,UCL、上交等高校聯(lián)合團(tuán)隊(duì)發(fā)布
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)