GPT-4/Gemini大翻車，做旅行攻略成功率≈0%！復(fù)旦OSU等華人團隊：Agent不會復(fù)雜任務(wù)規(guī)劃

AIGC動態(tài)2年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標題：GPT-4/Gemini大翻車，做旅行攻略成功率≈0%！復(fù)旦OSU等華人團隊：Agent不會復(fù)雜任務(wù)規(guī)劃
關(guān)鍵字：智能,計劃,研究者,工具,信息
文章來源：新智元
內(nèi)容字數(shù)：12312字

內(nèi)容摘要：

新智元報道編輯：編輯部
【新智元導(dǎo)讀】最近，復(fù)旦、俄亥俄州立大學(xué)、Meta和賓夕法尼亞州立大學(xué)的研究者發(fā)現(xiàn)，GPT-4 Agent規(guī)劃旅行只有0.6%成功率！離在人類復(fù)雜環(huán)境中做出規(guī)劃，智能體還任重道遠。AI智能體，是目前學(xué)界炙手可熱的前沿話題，被眾多專家視為大模型發(fā)展的下一個方向。
然而，最近復(fù)旦、俄亥俄州立大學(xué)、賓夕法尼亞州立大學(xué)、Meta AI的研究者們發(fā)現(xiàn)，AI智能體在現(xiàn)實世界的規(guī)劃能力還很差。
他們對GPT-4 Turbo、Gemini Pro、Mixtral 8x7B等進行了全面評估，發(fā)現(xiàn)這些大模型智能體全部翻車了！即使是表現(xiàn)最好的，成功率也僅有0.6%。
對于大模型規(guī)劃能力和智能體感興趣的研究人員，以后又有一個新榜可以刷了。（手動狗頭）
項目主頁：https://osu-nlp-group.github.io/TravelPlanner/
看來，讓智能體在現(xiàn)實世界中完成復(fù)雜規(guī)劃任務(wù)的那一天，還遠著呢。
LLM智能體，能規(guī)劃旅行嗎規(guī)劃，是被視為人類智能的一大特征，它是建立在多種能力之上的進化成果，包括：
– 迭代使用各種工具來收集信息并做決策；
– 為了深入思考而在工作記

原文鏈接：GPT-4/Gemini大翻車，做旅行攻略成功率≈0%！復(fù)旦OSU等華人團隊：Agent不會復(fù)雜任務(wù)規(guī)劃

聯(lián)系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展，關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響，領(lǐng)航中國新智能時代。

閱讀原文