Aria-UI – 港大聯合 Rhymes AI 開源面向 GUI 智能交互的多模態模型
Aria-UI是什么
Aria-UI是由香港大學與Rhymes AI聯合開發的一個大型多模態模型,旨在處理圖形用戶界面(GUI)中的定位任務。該模型采用純視覺的方法,不依賴于HTML或AXTree等輔助輸入,通過大規模的多樣化數據合成流程,從Common Crawl及公開數據中生成高質量的元素描述和指令樣本,能夠靈活適應不同環境下的指令表達。Aria-UI創新性地整合了動態動作歷史信息,利用文本或文本-圖像交錯格式增強模型在多步任務場景中的定位能力。經過廣泛的基準測試,包括離線和在線代理任務,Aria-UI展現出卓越的性能,顯現出強大的零樣本泛化能力和跨平臺適應性,是解決通用GUI定位任務的理想選擇。
Aria-UI的主要功能
- GUI元素定位:能夠將語言指令精確映射到GUI中的目標元素,從而實現元素的準確定位,為后續交互操作奠定基礎。
- 多模態輸入處理:支持處理包括GUI圖像、文本指令及動作歷史等多種輸入模態,充分理解和利用多模態數據中的豐富信息。
- 多樣化指令適應:通過大規模、多樣化的數據合成流程生成的指令樣本,能夠有效適應不同環境下的各種指令表達方式。
- 動態上下文理解:整合動態動作歷史信息,采用文本或文本-圖像交錯格式,在多步任務場景中理解當前的動態上下文,為準確的元素定位提供重要參考。
- 高分辨率圖像處理:支持高達3920×2940的圖像分辨率,能夠將圖像分割成小塊進行處理,顯著擴展可處理的圖像尺寸范圍。
Aria-UI的技術原理
- 純視覺方法:該模型通過純視覺方法,直接從GUI圖像中提取視覺特征,利用視覺信息進行目標元素的理解與定位。
- 多模態MoE模型:基于Aria多模態MoE(Mixture of Experts)模型構建,具有3.9B的激活參數,特別擅長處理多模態數據。
- 數據合成與訓練:采用兩階段的數據合成流程,從Common Crawl及公開數據中生成高質量的元素描述與多樣化指令樣本,覆蓋Web、桌面和移動三大GUI環境,為模型訓練提供豐富、多樣的訓練數據,增強模型對不同指令和元素的識別能力。
- 上下文感知數據擴展:利用公開的代理軌跡數據模擬具有上下文的定位任務,構建文本動作歷史和文本-圖像交錯歷史兩種上下文設置,基于數據合成流程為軌跡數據中的所有定位步驟生成詳細的逐步指令,使模型在動態環境中更好地理解并執行任務。
- 超分辨率支持:支持高達3920×2940的圖像分辨率,將圖像分割成小塊進行處理,確保圖像細節和準確性。
Aria-UI的項目地址
- 項目官網:https://ariaui.github.io/
- GitHub倉庫:https://github.com/AriaUI/Aria-UI
- HuggingFace模型庫:https://huggingface.co/Aria-UI
- arXiv技術論文:https://arxiv.org/pdf/2412.16256
Aria-UI的應用場景
- 自動化測試:用于Web應用的測試,自動點擊網頁按鈕、輸入信息,驗證功能是否正常。
- 用戶交互輔助:通過語音指令控制家居設備,例如“開燈”來自動點擊開關按鈕。
- 智能客服:電商平臺客服可以快速定位產品詳情,迅速回答用戶咨詢問題。
- 教育行業:自動操作代碼編輯器,演示編程過程和結果,提升學習效率。
- 自動化辦公:自動操作財務軟件,生成報表,提高工作效率。
常見問題
- Aria-UI適用于哪些平臺? Aria-UI可廣泛應用于Web、桌面及移動設備的圖形用戶界面。
- 如何獲取Aria-UI? 用戶可以通過訪問項目官網或GitHub倉庫獲取相關資源和文檔。
- Aria-UI是否支持其他語言的指令? 是的,Aria-UI能夠處理多樣化的語言指令,適應不同用戶的需求。
- 如何提高Aria-UI的性能? 通過提供更多樣化的訓練數據和上下文信息,可以有效提升模型的識別和定位能力。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...