AIGC動態歡迎閱讀
原標題:性能大漲20%!中科大「狀態序列頻域預測」方法:表征學習樣本效率max|NeurIPS 2023 Spotlight
關鍵字:狀態,序列,表征,函數,算法
文章來源:新智元
內容字數:14237字
內容摘要:
新智元報道編輯:LRS 好困
【新智元導讀】SPF算法是一種基于狀態序列頻域預測的表征學習方法,利用狀態序列的頻域分布來顯式提取狀態序列數據中的趨勢性和規律性信息,從而輔助表征高效地提取到長期未來信息。強化學習算法(Reinforcement Learning, RL)的訓練過程往往需要大量與環境交互的樣本數據作為支撐。然而,現實世界中收集大量的交互樣本通常成本高昂或者難以保證樣本采集過程的安全性,例如無人機空戰訓練和自動駕駛訓練。
為了提升強化學習算法在訓練過程中的樣本效率,一些研究者們借助于表征學習(representation learning),設計了預測未來狀態信號的輔助任務,使得表征能從原始的環境狀態中編碼出與未來決策相關的特征。
基于這個思路,該工作設計了一種預測未來多步的狀態序列頻域分布的輔助任務,以捕獲更長遠的未來決策特征,進而提升算法的樣本效率。
該工作標題為State Sequences Prediction via Fourier Transform for Representation Learning,發表于NeurIPS 2023,并被接收為Spotli
原文鏈接:性能大漲20%!中科大「狀態序列頻域預測」方法:表征學習樣本效率max|NeurIPS 2023 Spotlight
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。