国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

GTA

AI工具1年前 (2024)發布 AI工具集

GTA（通用工具智能體基準測試）是由上海交通大學與上海AI實驗室聯合推出的一項創新基準工具，旨在評估大型語言模型（LLMs）在實際應用中調用工具的能力。該測試結合了真實用戶問題、實際部署的工具以及多模態輸入輸出，創建了一個全面且細致的評估框架，能夠有效衡量LLMs在復雜場景中的工具使用表現。

GTA是什么

GTA（通用工具智能體基準測試）是由上海交通大學與上海AI實驗室共同開發的一項基準評測，目的是評估大型語言模型（LLMs）在真實環境中調用工具的能力。GTA的設計基于真實用戶問題、實際部署的工具以及多模態輸入輸出，構建了一個全面而細致的評估體系，能夠有效地衡量LLMs在復雜場景下的工具應用能力。GTA包括229個由人類設計的問題，涵蓋感知、操作、邏輯和創造力等多個領域，要求模型能夠推理適合的工具、規劃操作步驟，以解決現實中的復雜任務。

GTA

GTA的主要功能

真實用戶查詢：包含229個由人類編寫的問題，這些問題雖然目標簡單，但解決的步驟和所需的工具并不明顯，LLM需通過推理選擇合適的工具并規劃操作。
實際部署的工具：GTA提供一個評估平臺，涵蓋感知、操作、邏輯和創造力四大類別的14種工具，以評估代理在真實任務中的執行能力。
多模態輸入輸出：GTA引入了空間場景、網頁截圖、表格、代碼片段、手寫或打印材料等多模態輸入，要求模型處理豐富的上下文信息并提供文本或圖像輸出。
細致評估：GTA設計了細致的評估指標，包括指令遵循準確率（InstAcc）、工具選擇準確率（ToolAcc）、參數預測準確率（ArgAcc）、答案總結準確率（SummAcc）以及最終答案準確率（AnsAcc）。
模型評測：GTA支持逐步模式（step-by-step mode）和端到端模式（end-to-end mode）下對語言模型的評估，全面考察模型的工具使用能力。

GTA的技術原理

數據集構建：GTA的數據集構建分為問題構建和工具鏈構建兩個部分。問題由專家設計示例和標注文檔，標注人員根據示例設計更多的問題。工具鏈由標注人員手動調用已部署的工具構建，確保每個問題都能通過提供的工具得到解決。
工具調用：GTA采用ReAct風格的提示模板，指引LLM以特定格式調用工具，并處理工具返回的結果。該模板支持LLM進行推理與規劃，決定何時以及如何調用工具。
多模態處理：GTA要求LLM能夠理解和處理多模態輸入，包括圖像和文本，體現模型的跨模態理解和推理能力。
細致評估指標：GTA設計的評估指標覆蓋工具調用的整個過程，從LLM的工具調用到執行結果，提供對模型性能的全面評估。
模型比較：通過比較不同模型在GTA上的表現，揭示現有模型在處理真實世界問題時的工具使用瓶頸，為未來的通用工具智能體改進提供方向。