ReSum

ReSum – 阿里通義開源的WebAgent推理范式

核心亮點： ReSum是阿里通義DeepResearch家族推出的創新WebAgent推理范式，通過周期性摘要機制突破了長視界任務中的上下文長度限制，并融合GRPO算法顯著提升了智能體的推理能力，實現無限探索并保持對先前認知的掌握。

ReSum：解鎖WebAgent的無限探索潛能

ReSum，這一源自阿里通義DeepResearch家族的革新性WebAgent推理范式，為解決長視界任務中的關鍵瓶頸——上下文長度限制，提供了開創性的解決方案。它通過智能地對交互歷史進行周期性摘要，將不斷增長的對話內容濃縮為精煉的推理狀態，從而賦予WebAgent近乎無限的探索能力，同時確保其能夠牢牢把握住先前發現的關鍵信息。

ReSum的獨特優勢

擺脫上下文束縛：ReSum運用創新的摘要機制，將冗長的對話精煉成緊湊的推理狀態，徹底消除了WebAgent在處理長序列任務時面臨的上下文長度限制。
賦能無限探索：通過動態更新其推理狀態，ReSum使WebAgent能夠進行不受限制的探索，確保每一步決策都建立在最新、最全面的信息之上。
強化推理引擎：ReSum的核心在于其ReSum-GRPO方案，該方案整合了GRPO（Group Relative Policy Optimization）算法，通過生成、檢索、規劃和優化四個關鍵環節，極大地增強了智能體的邏輯推理和決策能力。
實證卓越表現：與傳統的ReAct方法相比，ReSum在各項測試任務中平均絕對提升了4.5%，尤其在處理長篇幅對話和復雜推理場景時，其優越性得到了充分驗證。

ReSum的技術基石

智能上下文摘要：ReSum的核心技術在于其周期性的上下文摘要功能。通過定期對交互歷史進行高度概括，它將龐大的對話信息轉化為精煉的推理狀態，既打破了上下文長度的限制，又保留了支持后續推理的關鍵信息。
ReSum-GRPO驅動：ReSum基于ReSum-GRPO方案構建，深度融合了GRPO算法。該算法通過“生成-檢索-規劃-優化”的四步流程，系統性地優化了智能體的決策過程，從而在復雜任務中實現卓越表現。
動態推理狀態：ReSum能夠實時更新其推理狀態，確保智能體在執行每一步操作時，都能基于最新的信息進行判斷，從而實現高效、精準的多步推理。
強化學習賦能訓練：ReSum在強化學習的框架下進行訓練。通過on-policy訓練策略以及特制的GRPO算法，它確保了學習信號與模型當前的能力保持高度一致，顯著提高了訓練的穩定性和整體效率。