Yann LeCun不看好強化學(xué)習(xí):「我確實更喜歡 MPC」
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Yann LeCun不看好強化學(xué)習(xí):「我確實更喜歡 MPC」
關(guān)鍵字:模型,機器,智能,系統(tǒng),機器人
文章來源:機器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機器之心報道
編輯:張倩、小舟五十多年前的理論還值得再研究一下?「相比于強化學(xué)習(xí)(RL),我確實更喜歡模型預(yù)測控制(MPC)。至少從 2016 年起,我就一直在強調(diào)這一點。強化學(xué)習(xí)在學(xué)習(xí)任何新任務(wù)時都需要進(jìn)行極其大量的嘗試。相比之下,模型預(yù)測控制是零樣本的:如果你有一個良好的世界模型和一個良好的任務(wù)目標(biāo),模型預(yù)測控制就可以在不需要任何特定任務(wù)學(xué)習(xí)的情況下解決新任務(wù)。這就是規(guī)劃的魔力。這并不意味著強化學(xué)習(xí)是無用的,但它的使用應(yīng)該是最后的手段。」
在最近發(fā)布的一個帖子中,Meta 首席人工智能科學(xué)家 Yann LeCun 發(fā)表了這樣一番看法。一直以來,Yann LeCun 都是強化學(xué)習(xí)的批評者。他認(rèn)為,強化學(xué)習(xí)這種方法需要大量的試驗,非常低效。這和人類的學(xué)習(xí)方式大相徑庭 —— 嬰兒不是通過觀察一百萬個相同物體的樣本來識別物體,或者嘗試危險的東西并從中學(xué)習(xí),而是通過觀察、預(yù)測和與它們互動,即使沒有監(jiān)督。
在半年前的一次演講中,他甚至主張「放棄強化學(xué)習(xí)」(參見《GPT-4 的研究路徑?jīng)]有前途?Yann LeCun 給自回歸判了》)。但在隨后的一次采訪中,他又解釋說,他的意思并不是完全放棄,
原文鏈接:Yann LeCun不看好強化學(xué)習(xí):「我確實更喜歡 MPC」
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介: