AndroidGen – 智譜推出增強大語言模型 Agent 能力的框架
AndroidGen 是智譜技術團隊開發的一種框架,旨在增強基于大語言模型(LLM)的智能代理(Agent)能力,尤其在數據稀缺的環境中表現突出。該框架通過收集人類任務軌跡并利用這些軌跡訓練語言模型,從而實現無需人工標注的智能代理,顯著提高了 LLM 執行復雜任務的能力。
AndroidGen是什么
AndroidGen 是智譜技術團隊推出的一種框架,旨在提升基于大語言模型(LLM)的智能代理能力,尤其是在數據稀缺的情況下。該框架通過收集人類的任務軌跡,并基于這些軌跡對語言模型進行訓練,成功開發出無需人工標注的智能代理,極大地增強了 LLM 執行復雜任務的能力。
AndroidGen的主要功能
- 無需人工標注的數據收集與訓練:AndroidGen 通過收集人類任務軌跡,能夠在沒有人工標注的情況下訓練出高效的智能代理。
- 增強代理的任務執行能力:AndroidGen 通過四個核心模塊(ExpSearch、ReflectPlan、AutoCheck 和 StepCritic)顯著提升了 LLM 在執行復雜任務時的能力。
- xpSearch(經驗搜索):通過檢索已完成的類似軌跡,幫助 LLM 進行上下文學習,從而使智能代理的能力得以提升,促進其在簡單任務與復雜任務間的泛化。
- ReflectPlan(反思計劃):對當前環境進行自我反思并更新計劃狀態,增強智能代理的長期推理能力。
- AutoCheck(自動檢查):主動驗證每個智能代理操作的有效性,降低因操作失誤導致任務失敗的風險。
- StepCritic(步驟評估):將任務分解為多個子目標,并提供逐步軌跡評估,為模型優化提供細粒度標簽。
- 高效的數據收集管道:AndroidGen 建立了一個高效的數據收集管道,能夠生成大量高質量的 Android 瀏覽軌跡。
AndroidGen的技術原理
- 模型訓練:利用 LoRA 技術,對自動構建的數據集進行微調,包括 GLM-4-9B 和 Llama-3-70B,從而得到 Android Agent 模型。無需人工標注軌跡,通過將軌跡中的每一步作為樣本進行訓練,充分挖掘數據集中的信息。
- 混合規劃與執行步驟:將規劃與執行步驟結合進行微調,使 LLM 同時具備規劃與執行的能力。
- 數據收集流程:
- 任務制定:基于 GPT-4o,從 AndroidWorld 中生成約 300 條任務指令。
- 代理采樣:基于 AndroidWorld 和 GPT-4o 對每個任務的軌跡進行采樣。
- 軌跡記錄:記錄每一步的環境和操作信息,構建可復現的 Android 導航軌跡。
- 軌跡評估:使用 StepCritic 對記錄的軌跡進行評估,確保每個子目標的完成。
- 軌跡增強:擴充高質量數據集,最終構建了一個包含 1000 多個軌跡的數據集。
AndroidGen的性能效果
- AndroidWorld 基準測試:
- AndroidGen 顯著提升了相同基礎模型下智能代理的能力,與 M3A 和 SeeAct 相比,表現更為突出。
- AndroidGen + GPT-4o 的平均得分達到了 46.8,遠超其他組合。
- 模型參數較小且開源的 GLM-4-9B + AndroidGen 的平均得分,超過了模型參數更大且閉源的 GPT-4o + M3A。
- AitW(Android in the Wild) 和八款全球流行的移動應用程序(如 Google Maps、YouTube 等)的評測中,AndroidGen 顯示出色,在真實設備環境中對自然語言指令的理解與交互能力。
AndroidGen的應用場景
- 自動化任務處理:通過自然語言指令,智能代理能夠自動完成發送郵件、設置提醒、查詢信息等任務。
- 跨應用操作:智能代理能夠在不同應用之間進行交互,實現如從一個應用復制數據到另一個應用等操作。
- 智能導航:在 Android 設備上,智能代理能夠根據用戶指令進行導航,如打開特定應用、查找文件等。
- 智能交互:通過自然語言理解,智能代理能夠與用戶進行互動,提供更加智能的用戶體驗。
產品官網
欲了解更多信息,請訪問 AndroidGen 的官方網站。
常見問題
如有任何疑問,請查閱我們的常見問題解答頁面,以獲得更多幫助和支持。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...