GTA(通用工具智能體基準測試)是由上海交通大學與上海AI實驗室聯合推出的一項創新基準工具,旨在評估大型語言模型(LLMs)在實際應用中調用工具的能力。該測試結合了真實用戶問題、實際部署的工具以及多模態輸入輸出,創建了一個全面且細致的評估框架,能夠有效衡量LLMs在復雜場景中的工具使用表現。
GTA是什么
GTA(通用工具智能體基準測試)是由上海交通大學與上海AI實驗室共同開發的一項基準評測,目的是評估大型語言模型(LLMs)在真實環境中調用工具的能力。GTA的設計基于真實用戶問題、實際部署的工具以及多模態輸入輸出,構建了一個全面而細致的評估體系,能夠有效地衡量LLMs在復雜場景下的工具應用能力。GTA包括229個由人類設計的問題,涵蓋感知、操作、邏輯和創造力等多個領域,要求模型能夠推理適合的工具、規劃操作步驟,以解決現實中的復雜任務。
GTA的主要功能
- 真實用戶查詢:包含229個由人類編寫的問題,這些問題雖然目標簡單,但解決的步驟和所需的工具并不明顯,LLM需通過推理選擇合適的工具并規劃操作。
- 實際部署的工具:GTA提供一個評估平臺,涵蓋感知、操作、邏輯和創造力四大類別的14種工具,以評估代理在真實任務中的執行能力。
- 多模態輸入輸出:GTA引入了空間場景、網頁截圖、表格、代碼片段、手寫或打印材料等多模態輸入,要求模型處理豐富的上下文信息并提供文本或圖像輸出。
- 細致評估:GTA設計了細致的評估指標,包括指令遵循準確率(InstAcc)、工具選擇準確率(ToolAcc)、參數預測準確率(ArgAcc)、答案總結準確率(SummAcc)以及最終答案準確率(AnsAcc)。
- 模型評測:GTA支持逐步模式(step-by-step mode)和端到端模式(end-to-end mode)下對語言模型的評估,全面考察模型的工具使用能力。
GTA的技術原理
- 數據集構建:GTA的數據集構建分為問題構建和工具鏈構建兩個部分。問題由專家設計示例和標注文檔,標注人員根據示例設計更多的問題。工具鏈由標注人員手動調用已部署的工具構建,確保每個問題都能通過提供的工具得到解決。
- 工具調用:GTA采用ReAct風格的提示模板,指引LLM以特定格式調用工具,并處理工具返回的結果。該模板支持LLM進行推理與規劃,決定何時以及如何調用工具。
- 多模態處理:GTA要求LLM能夠理解和處理多模態輸入,包括圖像和文本,體現模型的跨模態理解和推理能力。
- 細致評估指標:GTA設計的評估指標覆蓋工具調用的整個過程,從LLM的工具調用到執行結果,提供對模型性能的全面評估。
- 模型比較:通過比較不同模型在GTA上的表現,揭示現有模型在處理真實世界問題時的工具使用瓶頸,為未來的通用工具智能體改進提供方向。
GTA的項目地址
- 項目官網:open-compass.github.io/GTA
- GitHub倉庫:https://github.com/open-compass/GTA
- HuggingFace模型庫:https://huggingface.co/datasets/Jize1/GTA
- arXiv技術論文:https://arxiv.org/pdf/2407.08713
GTA的應用場景
- 智能助理開發:GTA可用于評估和訓練智能助理,使其更好地理解和執行復雜的用戶請求,涉及多步驟的操作和多種工具的調用。
- 多模態交互:在處理圖像、文本及其他多媒體內容的場景中,GTA幫助模型學習如何結合多種輸入類型來解決問題。
- 自動化客戶服務:GTA可用于開發自動解決客戶問題的系統,該系統需調用不同的工具和資源以提供準確的答案和解決方案。
- 教育和培訓:GTA作為教育工具,幫助學生理解如何設計和實現復雜任務,這些任務需要多步驟推理和工具使用。
- 研究與開發:研究人員利用GTA測試和比較不同的LLMs,探索工具使用能力的新方法,推動AI技術的不斷進步。
常見問題
- GTA的目標是什么?:GTA旨在評估大型語言模型在現實場景中調用工具的能力,促進智能體在多模態環境下的應用。
- GTA的評估指標有哪些?:GTA的評估指標包括指令遵循準確率、工具選擇準確率、參數預測準確率、答案總結準確率和最終答案準確率。
- GTA適合哪些應用場景?:GTA可用于智能助理開發、自動化客戶服務、多模態交互、教育培訓以及研究開發等多個領域。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...