国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

AIGC動態2個月前更新 新智元
20 0 0

導讀: 阿里巴巴重磅發布并全面開源其深度研究Agent模型——通義DeepResearch,該模型在多項權威基準測試中表現卓越,超越了OpenAI和DeepSeek等業界領先模型。此次開源不僅包含模型、框架和解決方案,還一同公開了核心技術報告,預示著AI研究正在邁入“研究員”時代。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

通義DeepResearch震撼登場,刷新AI研究新高度

昨日,阿里巴巴在其AI領域再掀波瀾,正式對外開放了其首個深度研究Agent模型——通義DeepResearch。該模型憑借其300億參數(激活30億)的配置,在多項權威評測榜單上取得了令人矚目的成績,甚至在號稱“人類最后考試”的人類最后考試(HLE)榜單中,以32.9%的得分力壓DeepSeek-V3.1(29.8%)和OpenAI的Deep Research(26.6%),榮登全球第一。在OpenAI提出的高難度BrowseComp榜單上,通義DeepResearch也以43.4%的準確率領跑開源模型。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

此次開源的誠意十足,不僅提供了模型本身,還包括了其背后的框架和解決方案,開發者們可以在Hugging Face、GitHub等平臺便捷地獲取。開源項目迅速吸引了全球AI社區的關注,GitHub項目已獲得超過7.2k的星標,Hugging Face聯合創始人兼CEO Clem Delangue以及斯坦福NLP實驗室等知名科技人士也紛紛轉發點贊,足見其影響力。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

項目地址:https://github.com/Alibaba-NLP/DeepResearch

Hugging Face模型地址:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

ModelScope模型地址: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

技術博客:https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

超越“問答”范式,AI步入“研究員”時代

我們早已習慣了AI的“問答”模式,但當面對復雜問題時,AI能否像人類專家一樣進行深度研究?通義DeepResearch給出了肯定的答案。它徹底革新了傳統的交互方式,進化為一位真正的“研究員”。面對棘手難題,它能夠自主規劃研究路徑,模擬專家的工作流程:深度搜尋、多源交叉驗證、結構化歸納,最終生成一份詳實的研究報告。這份報告不僅論據有據、過程清晰可復現,結論也更具說服力。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

通義DeepResearch能夠將宏大問題巧妙分解為一系列邏輯清晰的子任務,并自主調用代碼分析、論文檢索、網頁訪問等工具,通過層層遞進、自主循環的方式完成整個研究鏈路。無論是作為資深研究員還是高效私人助手,它都能勝任。

真實場景演示:房產銷售情況查詢

假設需要查詢特定房產的銷售情況,例如“我住在夏威夷的珍珠城,位于瓦胡島上。我知道附近有兩處房產于2022年售出,分別是Akaikai Loop 2072號和Komo Mai Drive 2017號。請找出這兩處房產中2022年售價更高的那套,并告訴我其成交金額。” 通義DeepResearch會進行如下思考:

  1. 拆解指令,明確任務目標。
  2. 聯網搜索,獲取2022年房產銷售記錄及相應價格。
  3. 在多個信息源中進行反復核查與確認。

通過調用“聯網搜索”工具,通義DeepResearch準確完成了任務,展現了其在生活規劃和日常決策中的強大能力。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

專業領域探索:法律糾紛分析

在法律領域,面對“原告要求退還出資,但自己又欠了一屁股債,還有很多債權人”的復雜情況,通義DeepResearch也能提供專業的分析。它會主動調用法條、案例、學術觀點等工具,進行深度信息搜集,并構建詳盡的分析報告。整個過程縝密且可追溯,為用戶提供可靠的法律支持。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

跨學科難題攻克:星座數學模型

即使是博士級別的跨學科難題,如“在一個小片天區內,每顆亮于某一特定星等的恒星,都與其最近的鄰居(按二維歐幾里得距離計算)連接一條邊。假設恒星在天空中均勻分布,那么平均每個星座(即連通子圖)包含多少顆恒星?” 通義DeepResearch也能通過深度搜索、反復驗證,并借助Python解釋器、谷歌學術等工具,最終給出詳細且富有洞見的報告。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

技術解析:通義DeepResearch的“超級研究大腦”是如何煉成的

數據合成:構建智能體訓練的“教材”

高質量數據是AI模型的核心,通義DeepResearch團隊構建了一套完備的“智能體合成數據”體系,貫穿預訓練和后訓練全過程。其目標是擺脫對昂貴、稀缺的人工標注數據的依賴,通過機器生產高質量、大規模的訓練數據。

智能體增量預訓練數據合成

在預訓練階段,團隊引入了“Agentic CPT”(增量預訓練)概念,并構建了AgentFounder方法,用于合成能夠持續進化和擴展的智能體預訓練數據。通過整合海量知識文檔、網頁數據、知識圖譜以及模型思考軌跡,構建了一個龐大的“開放世界知識記憶庫”。在此基礎上,模擬真實場景生成海量“問題-答案”對。此外,還合成了規劃、推理和決策三種類型的“動作數據”,提升了模型的離線探索能力和決策水平。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

全自動高質量數據合成

在后訓練階段,團隊開發了一套全自動合成數據生成方案,產出比人工標注更高質量的數據。從WebWalker到WebSailor V2,該方案不斷迭代,提升數據質量和規模。為生成復雜問答對,流程包含:從真實網站提取信息,保證數據真實性;策略性隱藏關鍵信息,增加問題難度;將回答難度建模為可控的“原子操作”,精準控制復雜度;利用集合論形式化建模信息搜索問題,解決合成數據答案驗證難題。同時,還開發了專門生成跨科學知識、多步推理的“博士級”研究難題的自動化流程。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

兩種推理模式:應對長任務挑戰

通義DeepResearch模型支持兩種推理模式:ReAct Mode和Heavy Mode,以應對不同復雜度的任務。

經典模式:ReAct Mode

在標準任務中,模型采用經典的ReAct(思考-行動-觀察)模式,配合128K的超長上下文,能夠進行多輪次快速交互,高效解決問題。這是原生模型Agentic能力的直接體現。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
深度模式:Heavy Mode

面對極端復雜、需要長遠規劃的研究任務,Heavy Mode啟動。模型將龐大任務分解為“研究輪次”,每輪僅提取上一輪精華結論,構建精簡工作空間進行分析和整合。這種“綜合-重構”的迭代過程,確保Agent在執行超長期任務時始終保持清晰的“認知焦點”和高質量的推理能力。此外,Research-Synthesis框架允許多個IterResearch Agent并行研究,整合報告和結論,進一步提升答案的全面性和準確性。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

AI智能體自我進化:端到端訓練技術革新

團隊打通了“Agentic CPT→ SFT→ Agentic RL”端到端全鏈路,提出了兩階段的智能體增量預訓練,引領了智能體訓練新范式。基于ReAct框架的強化學習環節,展現了其深厚的系統工程能力。

算法優化與策略梯度

在算法層面,基于GRPO定制優化,嚴格遵循on-policy訓練范式,采用token級策略梯度損失函數,并結合留一法降低優勢估計方差。為避免“格式崩潰”,進行負樣本篩選,并增大批次和組規模以維持較小方差,提供充足監督信號。動態指標顯示,獎勵持續上升,策略熵保持高水平,模型在持續探索進化。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

基礎設施:構建強化學習的“護城河”

團隊強調,數據質量和訓練環境的穩定性是決定強化學習項目成敗的關鍵。他們構建了一套全棧式基礎設施,包括:經濟高效的仿真訓練環境,利用離線和自定義工具套件;為智能體提供快速魯棒交互的工具沙盒;實時優化數據集的自動數據管理;以及基于rLLM的On-policy異步框架,實現多個智能體實例并行交互。這些措施共同構成了智能體強化訓練的“閉環”,為解決復雜任務的AI智能體訓練樹立了全新范式。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

落地應用:賦能高德地圖與通義法睿

通義DeepResearch團隊在研發過程中成果斐然,每月一篇新作,均斬獲SOTA。其研究成果已成功賦能阿里旗下多個產品。

高德“小高老師”:智能導航與本地生活助手

高德地圖的“小高老師”背后,就有通義DeepResearch的強大支持。通義團隊與高德深度合作,構建了精通地圖領域的復雜“POI推理Agent”,能夠一鍵滿足用戶在導航和本地生活場景下的各種復雜需求,如地理區域、參與者約束、交通約束、時間約束、POI屬性等多維度信息。例如,用戶可以輕松找到“西湖邊上評分4.5以上的浙菜館,有兒童餐,且從地鐵站步行不超過1公里”,AI會提供最合適的推薦并規劃路線。在高德V16版本中,它還為Citywalk等場景提供了詳細的時間規劃和餐飲、景點推薦。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

通義法睿:法律領域的智能研究員

在法律領域,通義DeepResearch能力深度融合進“通義法睿”,一個原生的法律智能體。它集問答、案例檢索、合同審查、文書起草于一身。通過Agentic架構和迭代式規劃,通義法睿能夠執行多步查詢,依托真實判例、法規和解讀,提供可追溯分析。在與OpenAI、Claude等模型的PK中,通義法睿在答案要點質量、案例引用質量、法條引用質量三大核心維度上均表現更優。

阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定

通義DeepResearch的開源,為AI社區帶來了福音,使得人人都有可能構建專屬的深度研究智能體。它證明了輕量級模型在“深度研究”領域的強大潛力,并揭示了合成數據與強化學習結合是未來模型訓練的重要方向。我們有理由相信,基于通義DeepResearch的下一代爆款應用即將誕生。

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        狠狠色丁香久久婷婷综合_中| 一本到一区二区三区| 欧洲国产伦久久久久久久| 亚洲电影第三页| 久久久久久亚洲综合| 欧美日韩小视频| 丁香另类激情小说| 欧美精品一区二区精品网| av电影一区二区| 黄一区二区三区| 亚洲6080在线| 亚洲最新视频在线观看| 国产精品天美传媒| 久久亚洲精华国产精华液| 欧美男男青年gay1069videost| 亚洲成人午夜电影| 国产精品高潮呻吟| 精品久久久久一区| 欧美一区二区在线观看| 一本大道av一区二区在线播放 | 亚洲国产精品传媒在线观看| 91 com成人网| 欧美欧美欧美欧美首页| 国产成人啪免费观看软件| 日韩精品欧美精品| 一区二区在线看| 国产精品久久久久影院| 久久久久久亚洲综合影院红桃| 欧美日韩另类国产亚洲欧美一级| 国产一区在线看| 蜜臀av性久久久久蜜臀av麻豆| 一二三四区精品视频| 日韩一区欧美一区| 成人免费在线播放视频| 亚洲国产精品传媒在线观看| 久久婷婷久久一区二区三区| 精品国产91乱码一区二区三区| 日韩美一区二区三区| 日韩精品专区在线| 久久噜噜亚洲综合| 久久精品欧美日韩精品| 久久亚洲二区三区| 中文字幕中文字幕一区| 中文字幕日本乱码精品影院| 综合久久综合久久| 亚洲一区自拍偷拍| 亚洲美女电影在线| 一区二区三区成人| 五月婷婷久久综合| 免费观看日韩av| 国内精品视频一区二区三区八戒| 激情另类小说区图片区视频区| 国内精品免费在线观看| 国产成人自拍网| 色综合天天性综合| 欧美日韩在线三级| 久久综合网色—综合色88| 欧美极品少妇xxxxⅹ高跟鞋| 亚洲视频资源在线| 一区二区三区四区视频精品免费 | 成人高清免费观看| 一本色道久久综合亚洲aⅴ蜜桃| 一本到三区不卡视频| 欧美肥妇毛茸茸| 久久九九影视网| 亚洲欧美日韩人成在线播放| 午夜精品久久久久久久久| 麻豆精品在线观看| 97久久超碰国产精品| 欧美久久久一区| 久久精品水蜜桃av综合天堂| 亚洲欧美成人一区二区三区| 五月激情丁香一区二区三区| 国产精品一二三四| 精品一区二区三区蜜桃| 一本大道综合伊人精品热热 | 欧美日韩一区二区三区在线| 色综合网站在线| 欧美成人一区二区三区| 亚洲欧洲av色图| 狠狠色丁香久久婷婷综合丁香| 91蝌蚪国产九色| 欧美大片一区二区| 一区二区三区波多野结衣在线观看 | 91亚洲永久精品| 51精品国自产在线| 亚洲婷婷在线视频| 精品一区二区在线视频| 欧美亚洲精品一区| 国产欧美日韩精品一区| 日本成人在线一区| 欧美综合天天夜夜久久| 久久久亚洲精品一区二区三区| 亚洲图片自拍偷拍| 99久久亚洲一区二区三区青草| 91精品国产91久久久久久一区二区 | 国产精品全国免费观看高清| 国产精品一级在线| 国产精品网站在线播放| 99精品视频一区二区| 亚洲激情av在线| 欧美狂野另类xxxxoooo| 美女免费视频一区| 国产欧美日韩综合精品一区二区| 成人精品视频一区| 亚洲麻豆国产自偷在线| 在线观看网站黄不卡| 奇米四色…亚洲| 久久久国产午夜精品| 99久久伊人久久99| 婷婷综合久久一区二区三区| 久久伊人蜜桃av一区二区| 成人av在线电影| 亚洲成人在线免费| 26uuu亚洲综合色| 成人av电影免费观看| 亚洲电影中文字幕在线观看| 欧美一区二区三区日韩视频| 国产成人av自拍| 亚洲一区在线观看免费 | 丰满少妇在线播放bd日韩电影| 国产精品久久看| 欧美高清视频在线高清观看mv色露露十八 | 精品国产乱码久久久久久久久| 成人一区二区三区中文字幕| 亚洲精品成人天堂一二三| 日韩写真欧美这视频| 成人午夜精品一区二区三区| 亚洲综合男人的天堂| 久久影院视频免费| 欧美午夜一区二区三区免费大片| 激情综合网最新| 亚洲一区二区三区四区中文字幕| 日韩欧美国产一二三区| 91美女片黄在线观看91美女| 麻豆精品久久精品色综合| 国产精品剧情在线亚洲| 精品国产一区二区国模嫣然| 在线看日本不卡| 成人午夜激情片| 另类小说一区二区三区| 一区二区三区在线视频播放| 日本一区二区动态图| 日韩一二三四区| 色94色欧美sute亚洲线路一久| 黄一区二区三区| 午夜激情久久久| 亚洲人成亚洲人成在线观看图片 | 亚洲国产精品精华液网站| 国产欧美精品一区二区三区四区 | 国产在线一区二区综合免费视频| 亚洲欧美偷拍卡通变态| 国产情人综合久久777777| 欧美一区二区三区啪啪| 欧美午夜精品久久久| 91免费在线播放| 成人av高清在线| 成人国产在线观看| 粉嫩嫩av羞羞动漫久久久| 国精产品一区一区三区mba桃花| 日本vs亚洲vs韩国一区三区二区| 亚洲国产精品欧美一二99| 亚洲一区在线免费观看| 一区二区三区加勒比av| 中文字幕在线一区二区三区| 国产精品午夜春色av| 中文字幕不卡的av| 国产精品萝li| 国产精品伦理在线| 自拍偷拍欧美激情| 亚洲黄一区二区三区| 亚洲成人av在线电影| 丝袜美腿亚洲一区二区图片| 亚洲国产精品嫩草影院| 亚洲国产精品视频| 天天色综合天天| 久久不见久久见免费视频7| 久久不见久久见免费视频1| 国产精品资源在线看| www.欧美亚洲| 日本韩国欧美在线| 欧美三级三级三级爽爽爽| 6080国产精品一区二区| 欧美成人女星排行榜| 国产亚洲欧美一级| 成人欧美一区二区三区视频网页| 亚洲免费观看高清在线观看| 亚洲国产美国国产综合一区二区| 亚洲午夜免费电影| 精品午夜久久福利影院| 成人手机在线视频| 91在线国产观看| 欧美日韩一区二区在线观看| 日韩写真欧美这视频| 国产日产欧产精品推荐色| 亚洲精品写真福利| 久久国产精品一区二区| 91原创在线视频| 欧美一区二区视频网站| 欧美高清在线一区二区|