<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        GTA

        AI工具6個月前發布 AI工具集
        344 0 0

        GTA(通用工具智能體基準測試)是由上海交通大學與上海AI實驗室聯合推出的一項創新基準工具,旨在評估大型語言模型(LLMs)在實際應用中調用工具的能力。該測試結合了真實用戶問題、實際部署的工具以及多模態輸入輸出,創建了一個全面且細致的評估框架,能夠有效衡量LLMs在復雜場景中的工具使用表現。

        GTA是什么

        GTA(通用工具智能體基準測試)是由上海交通大學與上海AI實驗室共同開發的一項基準評測,目的是評估大型語言模型(LLMs)在真實環境中調用工具的能力。GTA的設計基于真實用戶問題、實際部署的工具以及多模態輸入輸出,構建了一個全面而細致的評估體系,能夠有效地衡量LLMs在復雜場景下的工具應用能力。GTA包括229個由人類設計的問題,涵蓋感知、操作、邏輯和創造力等多個領域,要求模型能夠推理適合的工具、規劃操作步驟,以解決現實中的復雜任務。

        GTA

        GTA的主要功能

        • 真實用戶查詢:包含229個由人類編寫的問題,這些問題雖然目標簡單,但解決的步驟和所需的工具并不明顯,LLM需通過推理選擇合適的工具并規劃操作。
        • 實際部署的工具:GTA提供一個評估平臺,涵蓋感知、操作、邏輯和創造力四大類別的14種工具,以評估代理在真實任務中的執行能力。
        • 多模態輸入輸出:GTA引入了空間場景、網頁截圖、表格、代碼片段、手寫或打印材料等多模態輸入,要求模型處理豐富的上下文信息并提供文本或圖像輸出。
        • 細致評估:GTA設計了細致的評估指標,包括指令遵循準確率(InstAcc)、工具選擇準確率(ToolAcc)、參數預測準確率(ArgAcc)、答案總結準確率(SummAcc)以及最終答案準確率(AnsAcc)。
        • 模型評測:GTA支持逐步模式(step-by-step mode)和端到端模式(end-to-end mode)下對語言模型的評估,全面考察模型的工具使用能力。

        GTA的技術原理

        • 數據集構建:GTA的數據集構建分為問題構建和工具鏈構建兩個部分。問題由專家設計示例和標注文檔,標注人員根據示例設計更多的問題。工具鏈由標注人員手動調用已部署的工具構建,確保每個問題都能通過提供的工具得到解決。
        • 工具調用:GTA采用ReAct風格的提示模板,指引LLM以特定格式調用工具,并處理工具返回的結果。該模板支持LLM進行推理與規劃,決定何時以及如何調用工具。
        • 多模態處理:GTA要求LLM能夠理解和處理多模態輸入,包括圖像和文本,體現模型的跨模態理解和推理能力。
        • 細致評估指標:GTA設計的評估指標覆蓋工具調用的整個過程,從LLM的工具調用到執行結果,提供對模型性能的全面評估。
        • 模型比較:通過比較不同模型在GTA上的表現,揭示現有模型在處理真實世界問題時的工具使用瓶頸,為未來的通用工具智能體改進提供方向。

        GTA的項目地址

        GTA的應用場景

        • 智能助理開發:GTA可用于評估和訓練智能助理,使其更好地理解和執行復雜的用戶請求,涉及多步驟的操作和多種工具的調用。
        • 多模態交互:在處理圖像、文本及其他多媒體內容的場景中,GTA幫助模型學習如何結合多種輸入類型來解決問題。
        • 自動化客戶服務:GTA可用于開發自動解決客戶問題的系統,該系統需調用不同的工具和資源以提供準確的答案和解決方案。
        • 教育和培訓:GTA作為教育工具,幫助學生理解如何設計和實現復雜任務,這些任務需要多步驟推理和工具使用。
        • 研究與開發:研究人員利用GTA測試和比較不同的LLMs,探索工具使用能力的新方法,推動AI技術的不斷進步。

        常見問題

        • GTA的目標是什么?:GTA旨在評估大型語言模型在現實場景中調用工具的能力,促進智能體在多模態環境下的應用。
        • GTA的評估指標有哪些?:GTA的評估指標包括指令遵循準確率、工具選擇準確率、參數預測準確率、答案總結準確率和最終答案準確率。
        • GTA適合哪些應用場景?:GTA可用于智能助理開發、自動化客戶服務、多模態交互、教育培訓以及研究開發等多個領域。
        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 成人精品综合免费视频| 亚洲天堂中文字幕在线观看| 边摸边吃奶边做爽免费视频99| 亚洲字幕在线观看| 亚洲美女免费视频| 亚洲国产精品综合久久20| 永久免费av无码不卡在线观看| 亚洲成年网站在线观看| 暖暖免费高清日本中文| 精品亚洲国产成AV人片传媒| 亚洲国产AV无码一区二区三区 | 无码中文在线二区免费| 亚洲六月丁香婷婷综合| 日本免费网站观看| 一级特黄aaa大片免费看| 毛片免费在线视频| 亚洲宅男永久在线| 青草草色A免费观看在线| 亚洲人成网站免费播放| 免费国产在线观看| 国产永久免费高清在线| 亚洲另类春色国产精品| 在线看片无码永久免费aⅴ| igao激情在线视频免费| 亚洲高清美女一区二区三区| 99久久国产精品免费一区二区| 亚洲人成电影在线天堂| 成人无遮挡毛片免费看| 皇色在线免费视频| 亚洲免费在线视频观看| 亚洲国产精品国产自在在线| 99免费在线观看视频| 亚洲av无码专区青青草原| 成人免费一区二区三区在线观看| 午夜在线亚洲男人午在线| 亚洲av之男人的天堂网站| 妞干网免费观看视频| 在线观看片免费人成视频无码| 国产精品亚洲精品| 国产亚洲精品岁国产微拍精品| 日本精品人妻无码免费大全|