強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來(lái)了?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來(lái)了?
關(guān)鍵字:機(jī)器人,策略,任務(wù),人類,緩存
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:Panda、佳琪把平均成功率從 50% 拉到了 100%。最近,AI 的進(jìn)步有目共睹,現(xiàn)在這些進(jìn)步已經(jīng)開始傳遞到機(jī)器人領(lǐng)域。強(qiáng)大的 AI 技術(shù)也能幫助機(jī)器人更好地理解其所處的物理世界并采取更合理的行動(dòng)。
近日,UC 伯克利 BAIR 實(shí)驗(yàn)室的 Sergey Levine 研究團(tuán)隊(duì)提出了一個(gè)強(qiáng)化學(xué)習(xí)框架 HIL-SERL,可直接在現(xiàn)實(shí)世界中訓(xùn)練通用的基于視覺(jué)的機(jī)器人操作策略。HIL-SERL 的表現(xiàn)堪稱前所未有的卓越,僅需 1-2.5 小時(shí)的訓(xùn)練就能在所有任務(wù)上實(shí)現(xiàn) 100% 的成功率。要知道,基線方法的平均成功率還不到50%。就算有外部干擾,機(jī)器人也能取得很好的表現(xiàn)。論文一作 Jianlan Luo 的推文,他目前正在 UC 伯克利 BAIR 實(shí)驗(yàn)室從事博士后研究團(tuán)隊(duì)導(dǎo)師 Sergey Levine 也發(fā)了推文宣傳這項(xiàng)研究,他是一位非常著名的 AI 和機(jī)器人研究科學(xué)家,曾是 2021 年發(fā)表相關(guān)論文最多的研究者,參閱機(jī)器之心報(bào)道《2021 年 ML 和 NLP 學(xué)術(shù)統(tǒng)計(jì):谷歌斷層第一,強(qiáng)化學(xué)牛 Sergey Levine 位居榜首》
空口無(wú)憑,眼見為實(shí),那就先讓
原文鏈接:強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來(lái)了?
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: