Yann LeCun不看好強(qiáng)化學(xué)習(xí):「我確實(shí)更喜歡 MPC」

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Yann LeCun不看好強(qiáng)化學(xué)習(xí):「我確實(shí)更喜歡 MPC」
關(guān)鍵字:模型,機(jī)器,智能,系統(tǒng),機(jī)器人
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:張倩、小舟五十多年前的理論還值得再研究一下?「相比于強(qiáng)化學(xué)習(xí)(RL),我確實(shí)更喜歡模型預(yù)測(cè)控制(MPC)。至少?gòu)?2016 年起,我就一直在強(qiáng)調(diào)這一點(diǎn)。強(qiáng)化學(xué)習(xí)在學(xué)習(xí)任何新任務(wù)時(shí)都需要進(jìn)行極其大量的嘗試。相比之下,模型預(yù)測(cè)控制是零樣本的:如果你有一個(gè)良好的世界模型和一個(gè)良好的任務(wù)目標(biāo),模型預(yù)測(cè)控制就可以在不需要任何特定任務(wù)學(xué)習(xí)的情況下解決新任務(wù)。這就是規(guī)劃的魔力。這并不意味著強(qiáng)化學(xué)習(xí)是無用的,但它的使用應(yīng)該是最后的手段。」
在最近發(fā)布的一個(gè)帖子中,Meta 首席人工智能科學(xué)家 Yann LeCun 發(fā)表了這樣一番看法。一直以來,Yann LeCun 都是強(qiáng)化學(xué)習(xí)的批評(píng)者。他認(rèn)為,強(qiáng)化學(xué)習(xí)這種方法需要大量的試驗(yàn),非常低效。這和人類的學(xué)習(xí)方式大相徑庭 —— 嬰兒不是通過觀察一百萬個(gè)相同物體的樣本來識(shí)別物體,或者嘗試危險(xiǎn)的東西并從中學(xué)習(xí),而是通過觀察、預(yù)測(cè)和與它們互動(dòng),即使沒有監(jiān)督。
在半年前的一次演講中,他甚至主張「放棄強(qiáng)化學(xué)習(xí)」(參見《GPT-4 的研究路徑?jīng)]有前途?Yann LeCun 給自回歸判了》)。但在隨后的一次采訪中,他又解釋說,他的意思并不是完全放棄,
原文鏈接:Yann LeCun不看好強(qiáng)化學(xué)習(xí):「我確實(shí)更喜歡 MPC」
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)