GPT-4/Gemini大翻車,做旅行攻略成功率≈0%!復(fù)旦OSU等華人團隊:Agent不會復(fù)雜任務(wù)規(guī)劃
AIGC動態(tài)歡迎閱讀
原標題:GPT-4/Gemini大翻車,做旅行攻略成功率≈0%!復(fù)旦OSU等華人團隊:Agent不會復(fù)雜任務(wù)規(guī)劃
關(guān)鍵字:智能,計劃,研究者,工具,信息
文章來源:新智元
內(nèi)容字數(shù):12312字
內(nèi)容摘要:
新智元報道編輯:編輯部
【新智元導(dǎo)讀】最近,復(fù)旦、俄亥俄州立大學(xué)、Meta和賓夕法尼亞州立大學(xué)的研究者發(fā)現(xiàn),GPT-4 Agent規(guī)劃旅行只有0.6%成功率!離在人類復(fù)雜環(huán)境中做出規(guī)劃,智能體還任重道遠。AI智能體,是目前學(xué)界炙手可熱的前沿話題,被眾多專家視為大模型發(fā)展的下一個方向。
然而,最近復(fù)旦、俄亥俄州立大學(xué)、賓夕法尼亞州立大學(xué)、Meta AI的研究者們發(fā)現(xiàn),AI智能體在現(xiàn)實世界的規(guī)劃能力還很差。
他們對GPT-4 Turbo、Gemini Pro、Mixtral 8x7B等進行了全面評估,發(fā)現(xiàn)這些大模型智能體全部翻車了!即使是表現(xiàn)最好的,成功率也僅有0.6%。
對于大模型規(guī)劃能力和智能體感興趣的研究人員,以后又有一個新榜可以刷了。(手動狗頭)
項目主頁:https://osu-nlp-group.github.io/TravelPlanner/
看來,讓智能體在現(xiàn)實世界中完成復(fù)雜規(guī)劃任務(wù)的那一天,還遠著呢。
LLM智能體,能規(guī)劃旅行嗎規(guī)劃,是被視為人類智能的一大特征,它是建立在多種能力之上的進化成果,包括:
– 迭代使用各種工具來收集信息并做決策;
– 為了深入思考而在工作記
原文鏈接:GPT-4/Gemini大翻車,做旅行攻略成功率≈0%!復(fù)旦OSU等華人團隊:Agent不會復(fù)雜任務(wù)規(guī)劃
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。