「大模型+強(qiáng)化學(xué)習(xí)」最新綜述!港中文深圳130余篇論文:詳解四條主流技術(shù)路線
AIGC動態(tài)歡迎閱讀
原標(biāo)題:「大模型+強(qiáng)化學(xué)習(xí)」最新綜述!港中文深圳130余篇論文:詳解四條主流技術(shù)路線
關(guān)鍵字:模型,能力,自然語言,任務(wù),函數(shù)
文章來源:新智元
內(nèi)容字?jǐn)?shù):10478字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS
【新智元導(dǎo)讀】用大模型來輔助強(qiáng)化學(xué)習(xí),可以提高模型在多任務(wù)學(xué)習(xí)、樣本利用率、任務(wù)規(guī)劃等復(fù)雜任務(wù)下的能力,該論文綜述了LLM-enhanced RL領(lǐng)域的最新進(jìn)展,總結(jié)了LLM-enhanced RL的主要技術(shù)框架、特性以及四種主要技術(shù)路線;并分析了未來該方向的機(jī)會與挑戰(zhàn)。強(qiáng)化學(xué)習(xí)(RL)通過與環(huán)境交互的試錯反饋來優(yōu)化順序決策問題。
雖然RL在允許大量試錯的復(fù)雜電子游戲環(huán)境中實(shí)現(xiàn)了超越人類的決策能力(例如王者榮耀,Dota 2等),但很難在包含大量自然語言和視覺圖像的現(xiàn)實(shí)復(fù)雜應(yīng)用中落地,原因包括但不限于:數(shù)據(jù)獲取困難、樣本利用率低、多任務(wù)學(xué)習(xí)能力差、泛化性差、稀疏獎勵等。
大語言模型(LLM),通過在海量數(shù)據(jù)集上的訓(xùn)練,展現(xiàn)了超強(qiáng)的多任務(wù)學(xué)習(xí)、通用世界知識目標(biāo)規(guī)劃以及推理能力。以ChatGPT為代表的LLM已經(jīng)被廣泛應(yīng)用到各種現(xiàn)實(shí)領(lǐng)域中,包括但不限于:機(jī)器人、醫(yī)療、教育、法律等。
在此背景下,LLM可以提高強(qiáng)化學(xué)習(xí)在例如多任務(wù)學(xué)習(xí)、樣本利用率、任務(wù)規(guī)劃等方面的能力,幫助提高強(qiáng)化學(xué)習(xí)在復(fù)雜應(yīng)用下的學(xué)習(xí)表現(xiàn),例如自然語言指令跟隨、談判、自動駕駛等。
為此,來自香港中
原文鏈接:「大模型+強(qiáng)化學(xué)習(xí)」最新綜述!港中文深圳130余篇論文:詳解四條主流技術(shù)路線
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。
相關(guān)文章
