AndroidLab是一個專為訓練和評估Android自主代理而設計的框架,整合了文本和圖像的多模態操作環境,提供統一的行動空間和可重復的基準測試。它支持大型語言模型(LLMs)和多模態模型(LMMs),涵蓋138項任務,涉及九個不同的應用場景。通過AndroidLab,開發者可以構建Android指令數據集,從而提高開源模型的成功率。
AndroidLab是什么
AndroidLab是一個旨在提高Android自主代理性能的訓練與評估框架。它提供了一個集成的文本與圖像操作環境,允許模型在同一操作空間中進行交互,同時保證基準測試的可重復性。AndroidLab包含138項任務,涵蓋九個應用領域,旨在通過開發Android指令數據集來提升開源模型的表現。該框架還致力于縮小開源與閉源模型之間的性能差距,并在GitHub上提供開源支持。
AndroidLab的主要功能
- 多模態操作環境:提供標準化的多模態操作環境,使大型語言模型(LLMs)和多模態模型(LMMs)能夠在同一操作空間內進行高效交互。
- 基準測試:設計了一套涵蓋138項任務的基準測試,涉及九個常見應用,任務類型包括操作任務和查詢任務,模擬真實世界中的復雜交互場景。
- 評估指標:引入多種評估指標,如任務完成率(SR)、子目標成功率(Sub-SR)、反向冗余率(RRR)和合理操作比率(ROR),以全面評估代理的表現。
- 數據集構建:通過結合自動化探索與人工標注,創建高質量的Android Instruct數據集,提升開源模型在任務完成率和效率上的表現。
- 模型訓練與優化:支持對開源和閉源模型的訓練與優化,基于指令調優顯著縮小開源與閉源模型之間的性能差距。
AndroidLab技術原理
- 操作模式:
- XML模式:為文本輸入的LLMs設計,通過壓縮XML信息傳遞界面狀態,模型可直接選擇元素進行操作。
- SoM模式:專為LMMs設計,采用Set-of-Mark方法,將屏幕截圖與標記信息結合,模型選擇帶編號的標記元素進行操作。
- 推理與操作框架:
- ReAct框架:基于逐步推理和輸出操作,模型在展示中間推理過程的同時提供操作輸出。
- SeeAct框架:將推理與操作分離,采用兩輪交互,第一輪生成詳細推理步驟,第二輪執行具體操作。
- 任務設計與重現性:每個任務設計多個子目標,通過XML樹結構匹配驗證每個子目標的完成情況,確保結果的準確性和操作的高效性。
- 評估系統:構建基于任務完成的評估系統,直接從設備和屏幕狀態中判斷,提供全面且精確的代理性能評估。
- 數據集與模型訓練:結合自動化探索與人工標注構建數據集,進行模型的訓練和微調,提升模型在多模態和文本輸入任務中的表現。
AndroidLab的項目地址
- GitHub倉庫:https://github.com/THUDM/Android-Lab
- arXiv技術論文:https://arxiv.org/pdf/2410.24024
AndroidLab的應用場景
- 自動化測試:用于移動應用的自動化測試,通過模擬用戶操作驗證應用的功能和性能。
- 智能助理開發:開發能夠理解并執行復雜用戶指令的智能助理,如語音助手和機器人。
- 人機交互研究:研究與改進人機交互方式,特別是在移動設備上,旨在提高機器對人類指令的理解與響應能力。
- 人工智能研究:提供實驗平臺,以研究和開發大型語言模型(LLMs)及多模態模型(LMMs)在實際應用中的表現。
- 教育和培訓:作為教學工具,幫助學生和研究人員理解Android操作系統的工作機制及應用開發過程。
常見問題
- AndroidLab適合哪些用戶?:AndroidLab適合研究人員、開發者以及任何希望提高Android自主代理性能的用戶。
- 如何獲取AndroidLab的最新版本?:您可以訪問我們的GitHub倉庫獲取最新版本和更新信息。
- AndroidLab是否支持多種模型?:是的,AndroidLab支持大型語言模型(LLMs)和多模態模型(LMMs)。
- 如何參與AndroidLab的開發?:歡迎您通過GitHub提交問題和貢獻代碼,與社區共同推進AndroidLab的發展。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...