国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

浙大&通義全面評(píng)測(cè)智能體復(fù)雜任務(wù)規(guī)劃能力,18主流大模型全不及格|ICLR2025

AIGC動(dòng)態(tài)7個(gè)月前發(fā)布 量子位
516 0 0

智能體工作流生成基準(zhǔn)WorfBench

浙大&通義全面評(píng)測(cè)智能體復(fù)雜任務(wù)規(guī)劃能力,18主流大模型全不及格|ICLR2025

原標(biāo)題:浙大&通義全面評(píng)測(cè)智能體復(fù)雜任務(wù)規(guī)劃能力,18主流大模型全不及格|ICLR2025
文章來源:量子位
內(nèi)容字?jǐn)?shù):3421字

WorfBench:大模型智能體工作流評(píng)測(cè)基準(zhǔn)

隨著大模型智能體能力的快速發(fā)展,其不再局限于簡單的API調(diào)用,而是能夠像人類一樣與界面交互,執(zhí)行復(fù)雜操作。然而,評(píng)估這類智能體處理復(fù)雜任務(wù)的核心能力——工作流生成能力——的基準(zhǔn)卻十分缺乏。現(xiàn)有評(píng)估方法存在場(chǎng)景覆蓋范圍窄、工作流結(jié)構(gòu)復(fù)雜性不足以及評(píng)估標(biāo)準(zhǔn)不全面等問題。

為了解決這一問題,浙江大學(xué)通義團(tuán)隊(duì)聯(lián)合發(fā)布了WorfBench——一個(gè)涵蓋多場(chǎng)景和復(fù)雜圖結(jié)構(gòu)工作流的統(tǒng)一基準(zhǔn),以及WorfEval——一套系統(tǒng)性評(píng)估協(xié)議。這項(xiàng)研究已被人工智能頂級(jí)會(huì)議ICLR 2025錄用。

1. WorfBench 的構(gòu)建與評(píng)估

WorfBench 利用GPT自動(dòng)化構(gòu)建多場(chǎng)景任務(wù),包括問題求解、函數(shù)調(diào)用、具體規(guī)劃和開放式規(guī)劃等,生成了包含18k個(gè)訓(xùn)練樣本、2146個(gè)測(cè)試樣本和723個(gè)OOD(Out-of-Distribution,超出分布)樣本的評(píng)測(cè)數(shù)據(jù)集。WorfBench將工作流建模為有向無環(huán)圖(DAG),更精確地表示現(xiàn)實(shí)世界中的復(fù)雜串行或并行智能體工作流。為了確保數(shù)據(jù)質(zhì)量,研究人員引入了節(jié)點(diǎn)鏈作為中間結(jié)構(gòu),并采用拓?fù)渑判蛩惴▽?duì)圖結(jié)構(gòu)進(jìn)行質(zhì)量過濾,并在測(cè)試集上進(jìn)行人工驗(yàn)證。

WorfEval則通過子序列和子圖匹配算法,分別從鏈結(jié)構(gòu)和圖結(jié)構(gòu)兩個(gè)維度對(duì)大模型生成的工作流進(jìn)行量化評(píng)估,從而精準(zhǔn)衡量模型的線性規(guī)劃和圖規(guī)劃能力。

2. 基準(zhǔn)評(píng)測(cè)結(jié)果

研究人員在WorfBench上對(duì)18種不同規(guī)模的主流大模型進(jìn)行了評(píng)估,包括閉源模型(如O1、GPT-4、Claude-3.5)和開源模型(如Llama系列、Qwen系列等)。結(jié)果顯示,模型在圖結(jié)構(gòu)工作流預(yù)測(cè)上的能力遠(yuǎn)未達(dá)到現(xiàn)實(shí)需求,即使是GPT-4,其圖結(jié)構(gòu)工作流的平均性能也僅為52.47%。即使在訓(xùn)練集上表現(xiàn)出色,模型在OOD任務(wù)上的泛化能力仍然有待提高,這表明僅通過數(shù)據(jù)擬合難以有效學(xué)習(xí)結(jié)構(gòu)化工作流規(guī)劃能力。

3. 工作流生成分析

研究人員發(fā)現(xiàn)大模型在工作流生成中存在顯著的線性規(guī)劃與圖規(guī)劃能力差距,且圖規(guī)劃能力與模型規(guī)模并非完全正相關(guān)。部分7B模型在某些任務(wù)上甚至超越了13B模型,這可能與模型訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量有關(guān)。即使提供標(biāo)簽節(jié)點(diǎn)鏈以簡化圖結(jié)構(gòu)預(yù)測(cè)任務(wù),模型的圖規(guī)劃性能仍不理想,這表明圖規(guī)劃的復(fù)雜性在于對(duì)任務(wù)依賴關(guān)系的理解。

進(jìn)一步的錯(cuò)誤分析顯示,大模型在工作流生成中的典型錯(cuò)誤主要集中在任務(wù)分解的粒度、任務(wù)描述的明確性、圖結(jié)構(gòu)的正確性以及輸出格式的規(guī)范性四個(gè)方面,這些錯(cuò)誤大多源于模型對(duì)環(huán)境知識(shí)的缺乏。

4. 工作流知識(shí)增強(qiáng)智能體

研究表明,工作流可以作為一種流程先驗(yàn)知識(shí)直接指導(dǎo)智能體的規(guī)劃過程,幫助其在復(fù)雜任務(wù)中更高效地執(zhí)行,還可以作為鏈?zhǔn)剿伎迹–hain-of-Thought,CoT)的增強(qiáng)手段。工作流的圖結(jié)構(gòu)特性能夠?qū)崿F(xiàn)并行任務(wù)執(zhí)行,顯著減少推理時(shí)間,提升任務(wù)完成效率。

總而言之,WorfBench和WorfEval為大模型智能體工作流規(guī)劃能力的評(píng)估提供了一個(gè)重要的基準(zhǔn),也為未來研究指明了方向,例如優(yōu)化提示策略、采用多智能體架構(gòu),以及將世界知識(shí)或世界模型更深入地融入大模型中。


聯(lián)系作者

文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

閱讀原文
? 版權(quán)聲明
蟬鏡AI數(shù)字人

相關(guān)文章

蟬鏡AI數(shù)字人

暫無評(píng)論

暫無評(píng)論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        国产美女精品在线| 亚洲高清不卡在线| 亚洲视频一区二区在线观看| 国产成人午夜片在线观看高清观看| 日韩欧美高清一区| 日本亚洲三级在线| www国产成人| 成人手机电影网| 亚洲免费观看高清完整版在线观看熊| 色综合久久久网| 三级欧美韩日大片在线看| 欧美三级视频在线| 狠狠色狠狠色综合日日91app| 国产夜色精品一区二区av| 91啪在线观看| 美女视频黄a大片欧美| 欧美精品一区二区久久久| av毛片久久久久**hd| 一区二区三区产品免费精品久久75| 欧美在线观看一二区| 国产自产高清不卡| 亚洲激情校园春色| 久久嫩草精品久久久精品| 日本韩国精品一区二区在线观看| 亚洲精品成人在线| 久久婷婷国产综合精品青草| 色婷婷久久99综合精品jk白丝| 日韩精品国产欧美| 亚洲视频在线一区二区| 精品国产三级电影在线观看| 91在线视频网址| 国产麻豆视频一区二区| 亚洲国产精品久久久男人的天堂| 久久精品免视看| 日韩视频一区二区三区| 91无套直看片红桃| 国产精品1024久久| 欧美aaaaaa午夜精品| 亚洲色图视频网| 久久久久国产免费免费| 欧美日本乱大交xxxxx| 91原创在线视频| 国产不卡视频在线观看| 精品一区二区在线视频| 亚洲va韩国va欧美va| 亚洲欧美日韩一区二区| 国产精品视频一二三区 | 亚洲国产精品久久不卡毛片 | 亚洲综合色自拍一区| 久久精品在线观看| 日韩欧美另类在线| 538在线一区二区精品国产| 欧美在线观看视频一区二区| caoporen国产精品视频| 国产精品资源在线| 狠狠v欧美v日韩v亚洲ⅴ| 蜜乳av一区二区| 午夜久久电影网| 亚洲电影视频在线| 亚洲国产日日夜夜| 亚洲成人高清在线| 日本在线不卡一区| 免费观看30秒视频久久| 免费视频一区二区| 久久国产精品无码网站| 精品一区二区三区免费视频| 国产美女一区二区三区| 风间由美中文字幕在线看视频国产欧美| 精彩视频一区二区三区| 国产一区二区三区四| 国产电影一区二区三区| 不卡视频免费播放| 色婷婷综合久久久中文字幕| 色综合久久中文综合久久牛| 欧美性一二三区| 欧美一区二区人人喊爽| 精品国产sm最大网站免费看| 久久久久久久久久久久电影 | 亚洲午夜精品一区二区三区他趣| 亚洲已满18点击进入久久| 亚洲成人7777| 激情欧美一区二区| 成人性色生活片| 欧美亚洲另类激情小说| 91精品国产91久久久久久最新毛片| 欧美成人三级在线| 一区精品在线播放| 男男gaygay亚洲| 成人蜜臀av电影| 欧美色倩网站大全免费| 久久久天堂av| 亚洲一区二区三区四区在线| 久国产精品韩国三级视频| 99精品视频中文字幕| 日韩一区二区三| 中文字幕在线一区二区三区| 性做久久久久久久免费看| 国产一区二区久久| 欧美日韩亚洲国产综合| 国产女人aaa级久久久级 | 蜜乳av一区二区| 91啪亚洲精品| 精品999在线播放| 亚洲一级二级三级在线免费观看| 久久激情五月激情| 91精彩视频在线观看| 欧美精品一区二区三区很污很色的 | 波多野结衣精品在线| 制服丝袜成人动漫| 中文字幕永久在线不卡| 久久99久久久久| 欧美主播一区二区三区美女| 欧美国产欧美亚州国产日韩mv天天看完整 | 国产三级一区二区| 日韩成人伦理电影在线观看| 91猫先生在线| 中国色在线观看另类| 国产乱人伦精品一区二区在线观看| 欧美三级日本三级少妇99| 亚洲人午夜精品天堂一二香蕉| 国内成人免费视频| 日韩一区二区精品在线观看| 亚洲国产人成综合网站| 一本色道a无线码一区v| 欧美激情一区二区在线| 国产一区在线观看视频| 日韩三级视频在线看| 免费久久99精品国产| 欧美老女人在线| 日韩va欧美va亚洲va久久| 777色狠狠一区二区三区| 午夜欧美一区二区三区在线播放| 欧美亚洲综合网| 亚洲地区一二三色| 欧美电影在哪看比较好| 天天爽夜夜爽夜夜爽精品视频| 色94色欧美sute亚洲线路二 | 欧美日韩三级一区| 亚洲一区二区三区在线播放| 欧美视频在线不卡| 午夜成人免费电影| 91精品国产一区二区三区 | 69av一区二区三区| 美日韩一区二区| 日韩欧美一级片| 国产精品一区免费在线观看| 国产亚洲欧美色| 99热国产精品| 亚洲高清免费观看高清完整版在线观看| 91麻豆国产自产在线观看| 亚洲一级片在线观看| 日韩一级大片在线观看| 久久精品99国产精品日本| 久久精品亚洲麻豆av一区二区| 国产剧情一区二区| 国产精品理论片在线观看| 色婷婷综合久久久久中文 | 亚洲精品一卡二卡| 欧美日韩激情一区二区| 伦理电影国产精品| 国产精品视频免费看| 欧美在线一二三| 国产一区二三区| 国产精品国产精品国产专区不蜜 | 欧美一级理论片| 国产乱码字幕精品高清av| 国产精品第四页| 777xxx欧美| 成人激情文学综合网| 一区二区三区欧美激情| 精品国产乱子伦一区| 97精品视频在线观看自产线路二| 午夜精品爽啪视频| 久久久国产精品麻豆| 欧美性一二三区| 国产成人亚洲综合a∨猫咪| 一区二区三区在线观看国产| 337p粉嫩大胆噜噜噜噜噜91av| 成人国产精品免费观看| 午夜精品国产更新| 中文字幕亚洲成人| 日韩欧美一区中文| 色偷偷88欧美精品久久久| 国产麻豆91精品| 亚洲国产日韩在线一区模特| 久久久久久久一区| 制服丝袜成人动漫| 色综合天天做天天爱| 国产黄人亚洲片| 亚洲一级电影视频| 国产精品萝li| 久久精品一区蜜桃臀影院| 欧美一区二区在线免费观看| 91九色02白丝porn| 99精品国产91久久久久久| 国产高清在线观看免费不卡| 免费观看日韩电影| 污片在线观看一区二区| 亚洲一区二区三区爽爽爽爽爽 | 欧美韩国日本不卡|