LLM Agent在交互中學習游戲世界模型和進化行為策略

AIGC動態1年前 (2024)發布人工智能學家

AIGC動態歡迎閱讀

原標題：LLM Agent在交互中學習游戲世界模型和進化行為策略
關鍵字：策略,報告,世界,環境,游戲
文章來源：人工智能學家
內容字數：8196字

內容摘要：

來源：將門創投
作者：張文祺
來源：公眾號【量子位】
目前，LLM Agent大多專注于特定任務。研究者在了解該任務的領域知識后，手工編寫大量復雜的Prompt，告知任務的規則并規范LLM 的輸入輸出的形式等。此外，大部分LLM Agent缺乏從任務環境中學習的能力, 他們無法通過與環境互動來提升自己的行為，從而更好地達類設定的目標。
因此當面對復雜的動態的環境時，例如多人德州撲克、21點等大型非完美信息博弈游戲，LLM Agent給出的決策往往不夠合理，不懂變通。那么, 在不調整模型參數的前提下，LLM Agent能否像人類一樣，在復雜動態環境中學習并持續提升，從一個新手小白進化為一個熟練的專家呢？
針對這一問題，來自浙江大學, 中科院軟件所等機構的研究者提出了Agent-Pro: an LLM-based Agent with Policy-level Reflection and Optimization，具備策略級自我反思和行為優化的LLM Agent。Agent-Pro 能夠與游戲環境交互，學習游戲環境的世界模型，優化自己的行為策略，提升游戲技巧。圖1 Agent-Pro

原文鏈接：LLM Agent在交互中學習游戲世界模型和進化行為策略

聯系作者

文章來源：人工智能學家
作者微信：AItists
作者簡介：致力成為權威的人工智能科技媒體和前沿科技研究機構

閱讀原文

# AIGC動態 # 世界 # 報告 # 游戲 # 環境 # 策略

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

LLM Agent在交互中學習游戲世界模型和進化行為策略

AIGC動態歡迎閱讀

內容摘要：

聯系作者

ChatGPT王位難守？全球TOP100生成式AI應用重磅刷新：40%首次上榜，AI 陪伴來勢兇猛

來自科技進步一等獎的肯定：騰訊破解萬億參數大模型訓練難題

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

LLM Agent在交互中學習游戲世界模型和進化行為策略

AIGC動態歡迎閱讀

內容摘要：

聯系作者

ChatGPT王位難守？全球TOP100生成式AI應用重磅刷新：40%首次上榜，AI 陪伴來勢兇猛

來自科技進步一等獎的肯定：騰訊破解萬億參數大模型訓練難題

相關文章

暫無評論

ChatGPT

玩虛擬模特？

ChatGPT王位難守？全球TOP100生成式AI應用重磅刷新：40%首次上榜，AI 陪伴來勢兇猛

玩虛擬模特？