通義DeepResearch – 阿里推出的開源深度研究智能體
核心亮點:通義DeepResearch是一款專為深度、長周期信息檢索而生的開源智能體,擁有強大的300億參數,支持ReAct和迭代研究(IterResearch)等先進模式,通過全流程合成數據和端到端強化學習,大幅提升復雜推理能力,并已成功賦能多個阿里內部應用。
通義DeepResearch:深度研究的開源智能新引擎
通義DeepResearch,由阿里巴巴重磅推出,是一款面向長周期、深度信息檢索任務的開源智能研究體。這款智能體擁有高達300億的參數量,每次激活可動用30億參數,為復雜推理奠定堅實基礎。它巧妙融合了ReAct模式與深度模式(Heavy Mode),后者更是通過創新的迭代研究范式(IterResearch),極大地增強了其處理復雜推理的效能。尤為值得一提的是,通義DeepResearch采用了全流程合成數據方案,能夠自主生成高質量數據集,打破了傳統智能體能力的天花板,實現了從預訓練、監督微調到強化學習的全鏈路端到端訓練。目前,它已在阿里巴巴內部的多個關鍵應用中大放異彩,例如高德地圖的AI原生出行Agent,以及法律領域的“通義法睿”。
通義DeepResearch的核心能力概覽
- 深度長周期信息檢索:針對需要多步驟推理和規劃的復雜信息檢索任務而設計,適用于學術研究、市場洞察、政策分析等深度探索場景。
- 多模態推理支持:兼顧ReAct模式的嚴謹“思考-行動-觀察”循環,以及深度模式下通過迭代研究范式(IterResearch)實現的強大復雜推理能力。
- 自主數據生成:自研的全流程合成數據技術,無需人工介入,即可源源不斷地生成高質量訓練數據,為智能體的能力突破提供保障,貫穿整個訓練生命周期。
- 端到端強化學習:運用定制化強化學習算法(如GRPO),確保智能體的行為與宏觀目標高度一致,提升其在動態環境下的適應性和穩定性。
- 實戰應用驗證:已成功融入高德地圖的出行Agent及法律領域的“通義法睿”等阿里內部應用,展現出卓越的實用價值和廣泛的應用前景。
- 開放共享與共建:秉持開源理念,提供完整的代碼、模型和數據,誠邀全球開發者攜手共創,共同推動深度研究智能體技術的進步。
通義DeepResearch的技術基石
- 全流程合成數據方案:實現自動化、高質量的數據集生成,支持智能體從預訓練到強化學習的完整訓練閉環,突破能力邊界。
- 迭代研究范式(IterResearch):通過將復雜任務分解為多個研究回合,動態優化工作區,并遵循“思考-綜合-行動”的流程,顯著提升推理和決策的精度。
- 端到端強化學習:采用如Group Relative Policy Optimization (GRPO)等先進強化學習算法,實現學習信號與模型能力的精準匹配,增強模型在多變環境下的魯棒性。
- 大規模持續預訓練:利用不斷更新的知識文檔、數據及知識圖譜,構建開放世界的知識記憶,生成多樣化的問答對,持續拓展模型知識邊界。
- 自動化數據管理:在訓練過程中實時優化數據,通過全自動合成和動態調整訓練集,保障訓練的穩定性和性能的持續提升。
- 穩定高效的工具沙盒:構建統一、并發、容錯的工具調用環境,確保智能體與工具交互的穩定性和可靠性,提供高效魯棒的交互體驗。
通義DeepResearch的探索之旅:項目入口
- 項目官網:https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
- Github倉庫:https://github.com/Alibaba-NLP/DeepResearch
- HuggingFace模型庫:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
通義DeepResearch的家族成員:能力延伸
- WebWalker:專注于網頁導航能力評估。
- WebDancer:推動智能體自主信息搜尋能力的實現。
- WebSailor:提升智能體在復雜網頁環境下的超人級推理表現。
- WebShaper:通過信息搜尋的形式化,實現智能體數據的自主合成。
- WebWatcher:拓展視覺語言智能體在深度研究中的應用邊界。
- WebResearcher:釋放長周期智能體的推理潛力。
- ReSum:通過上下文總結優化智能體的長周期信息管理。
- WebWeaver:利用動態提綱構建結構化的網絡證據,支持開放式深度研究。
- WebSailor-V2:借助合成數據和可擴展強化學習,縮小與閉源智能體的差距。
通義DeepResearch的應用場景:賦能各行各業
- 學術研究:高效完成文獻梳理、綜述撰寫等復雜學術任務,極大提升研究效率。
- 市場分析:為企業提供深度競品分析、行業趨勢報告,助力制定精準的市場策略。
- 法律研究:在“通義法睿”等應用中,自動檢索法律條文、類案及裁判文書,進行深度歸納分析,為法律從業者提供強大支持。
- 出行規劃:與高德地圖合作,提供AI原生出行Agent,結合實時數據,為用戶定制精準出行方案。
- 復雜信息檢索:應對需要多步驟推理和規劃的復雜信息檢索挑戰,如跨領域研究、政策制定等,幫助用戶快速整合和提取關鍵信息。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...