超越人類!DeepMind強(qiáng)化學(xué)習(xí)新突破:AI在「我的世界」中封神!

原標(biāo)題:超越人類!DeepMind強(qiáng)化學(xué)習(xí)新突破:AI在「我的世界」中封神!
文章來源:新智元
內(nèi)容字?jǐn)?shù):10940字
DeepMind AI超越人類專家:在《我的世界》類游戲中取得突破
DeepMind團(tuán)隊(duì)近期取得重大突破,其改進(jìn)的強(qiáng)化學(xué)習(xí)技術(shù)使AI在類似《我的世界》的2D游戲Craftax-classic中超越了人類專家水平。這項(xiàng)研究的核心在于改進(jìn)基于Transformer世界模型(TWM)的強(qiáng)化學(xué)習(xí)方法,并顯著提升了AI的學(xué)習(xí)效率,僅需少量數(shù)據(jù)即可達(dá)到超越SOTA的性能。
1. 挑戰(zhàn)與方法:Crafter環(huán)境與基于模型的強(qiáng)化學(xué)習(xí)
為了訓(xùn)練更全面的AI,DeepMind選擇Crafter環(huán)境作為訓(xùn)練平臺(tái)。Crafter是一個(gè)2D版的《我的世界》,其隨機(jī)生成的關(guān)卡、局部視野以及基于成就的獎(jiǎng)勵(lì)機(jī)制,對(duì)AI的學(xué)習(xí)能力提出了更高的要求。研究團(tuán)隊(duì)采用基于模型的強(qiáng)化學(xué)習(xí)(MBRL)方法,讓AI先構(gòu)建一個(gè)“世界模型”(WM),在模擬世界中進(jìn)行規(guī)劃,從而減少對(duì)環(huán)境交互數(shù)據(jù)的依賴。與傳統(tǒng)的無模型強(qiáng)化學(xué)習(xí)(MFRL)相比,MBRL顯著降低了數(shù)據(jù)需求。
2. 關(guān)鍵改進(jìn):三項(xiàng)核心技術(shù)提升性能
研究團(tuán)隊(duì)主要從三個(gè)方面對(duì)TWM進(jìn)行改進(jìn):首先,采用Dyna方法,混合使用真實(shí)環(huán)境數(shù)據(jù)和TWM生成的虛擬數(shù)據(jù)訓(xùn)練智能體,這是一種生成式數(shù)據(jù)增強(qiáng)的方法;其次,提出了一種新的圖像標(biāo)記化方法——最近鄰標(biāo)記器(NNT),它比傳統(tǒng)的VQ-VAE方法更有效率,并提高了TWM的穩(wěn)定性;最后,采用塊狀教師(BTF)方法改進(jìn)TWM的訓(xùn)練方式,提高了訓(xùn)練速度和模型準(zhǔn)確性。這三項(xiàng)改進(jìn)共同促使AI在Craftax-classic中取得了67.42%的獎(jiǎng)勵(lì)和27.91%的得分,顯著超越了之前的SOTA,甚至超過了人類專家的平均水平。
3. 實(shí)驗(yàn)結(jié)果與分析:MBRL階梯與消融實(shí)驗(yàn)
研究團(tuán)隊(duì)通過“MBRL階梯”清晰地展示了每項(xiàng)改進(jìn)帶來的性能提升,從基準(zhǔn)模型到最終的最佳模型,獎(jiǎng)勵(lì)逐步提升。消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了每項(xiàng)改進(jìn)措施的重要性,證明了其有效性。此外,定量和定性評(píng)估都顯示,改進(jìn)后的TWM能夠更好地捕捉游戲動(dòng)態(tài),減少不合理的預(yù)測(cè),提升了世界模型的質(zhì)量。
4. 未來展望:技術(shù)推廣與進(jìn)一步研究
DeepMind團(tuán)隊(duì)計(jì)劃將這些技術(shù)推廣到更廣泛的環(huán)境中,并進(jìn)一步研究使用優(yōu)先經(jīng)驗(yàn)回放加速訓(xùn)練,以及結(jié)合大型預(yù)訓(xùn)練模型提升性能。他們還計(jì)劃探索非重構(gòu)型世界模型,以進(jìn)一步提高AI的學(xué)習(xí)效率和泛化能力。
總而言之,DeepMind的這項(xiàng)研究為強(qiáng)化學(xué)習(xí)領(lǐng)域帶來了新的突破,展示了基于模型的強(qiáng)化學(xué)習(xí)在復(fù)雜環(huán)境中解決問題的巨大潛力,并為通往通用人工智能(AGI)的道路提供了新的啟示。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)