AIGC動態歡迎閱讀
原標題:蘋果大模型新成果:GPT-4o扮演用戶,在場景中考察大模型工具調用,網友:Siri也要努力 | 開源
關鍵字:模型,工具,場景,狀態,用戶
文章來源:量子位
內容字數:0字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI蘋果團隊,又發布了新的開源成果——一套關于大模型工具調用能力的Benchmark。
這套Benchmark創新性地采用了場景化測評方法,可以更好體現模型在真實環境中的水平。
而且還引入了對話交互、狀態依賴等傳統標準中沒有關注到的重要場景。
這套測試基準名叫ToolSandbox,蘋果基礎模型團隊負責人龐若鳴也參與了研究工作。
ToolSandbox彌補了現有測試標準缺乏場景化評估的不足,縮小了測試條件與實際應用之間的差距。
而且在交互上,作者讓GPT-4o扮演用戶和被測模型進行對話,從而模擬真實世界中的場景。
比如告訴GPT-4o你不再是一個助理,而是要扮演正在和用戶B對話的用戶A,然后提出一系列具體要求。
另外,作者也利用ToolSandbox對一些主流模型進行了測試,結果整體上看閉源比開源模型分數更高,其中最強的是GPT-4o。
iOS應用開發者Nick Dobos表示,蘋果的這套標準簡潔明了。
同時他指出,現在ChatGPT面對三個工具就已經有些捉襟見肘,Siri要想管理好手機中幾十上百個應用,也需要提高工具調用能力。
言外之意
原文鏈接:蘋果大模型新成果:GPT-4o扮演用戶,在場景中考察大模型工具調用,網友:Siri也要努力 | 開源
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...