OmniParser是一款由微軟研究院開發的屏幕解析工具,旨在將用戶界面的屏幕截圖轉化為結構化的數據。這一工具專為提升基于大型語言模型(如GPT-4V)的用戶界面代理系統的表現而設計,通過準確識別可交互圖標和理解截圖中元素的語義,增強代理執行任務的能力。
OmniParser是什么
OmniParser是微軟研究院推出的一種屏幕解析工具,能夠將用戶界面的屏幕截圖轉化為結構化的數據。該工具旨在提高基于大型語言模型(如GPT-4V)的用戶界面代理系統的性能,通過精準識別可交互的圖標和理解截圖中的元素語義,增強代理執行任務的能力。OmniParser借助微調的模型來提取屏幕中的交互區域及其功能語義,在多個基準測試中顯著提升了操作的準確性和代理的整體性能,而無需依賴額外的信息如HTML或視圖層次結構。
OmniParser的主要功能
- 解析用戶界面截圖:將用戶界面的屏幕截圖轉化為結構化元素,包括可交互的圖標和文本。
- 識別可交互區域:使用專門的檢測模型識別并標記用戶界面中的可交互區域,如按鈕和圖標。
- 提取功能語義:運用描述模型提取檢測到的元素的功能語義,為用戶任務生成相關描述。
- 提升代理性能:結合解析結果,提高基于大型語言模型(如GPT-4V)的用戶界面代理在執行任務時的精確度和效率。
- 跨平臺兼容:支持多種操作系統和應用程序,包括Windows、MacOS、iOS、Android,以及多種Web瀏覽器和桌面應用。
- 數據提取:無需依賴HTML或視圖層次結構等額外信息,能夠從視覺截圖中提取必要數據。
OmniParser的技術原理
- 數據集構建:從廣泛使用的網頁和應用中提取數據,構建可交互圖標檢測和描述的數據集。
- 模型微調:
- 檢測模型:使用YOLOv8模型在可交互圖標檢測數據集上進行微調,以識別和定位用戶界面中的可交互區域。
- 描述模型:使用BLIP-v2模型在圖標描述數據集上進行微調,以生成圖標的功能性描述。
- 集成OCR模塊:結合光學字符識別(OCR)模塊,從屏幕中提取文本,并與圖標檢測結果合并,同時去除重疊的邊界框。
- 結構化表示:將檢測到的元素和生成的描述整合,形成結構化的文檔對象模型(DOM)表示,并在潛在可交互元素上疊加邊界框的截圖。
- 行動預測:結合結構化元素和功能語義,減輕大型語言模型在行動預測時的負擔,更精準地將預測的行動轉換為屏幕上的實際操作。
OmniParser的項目地址
- 項目官網:omniparser-for-pure-vision-based-gui-agent
- HuggingFace模型庫:https://huggingface.co/microsoft/OmniParser
- arXiv技術論文:https://arxiv.org/pdf/2408.00203
OmniParser的應用場景
- 自動化軟件測試:在軟件開發過程中,自動識別和操作用戶界面元素,以執行測試腳本,從而提高測試效率和覆蓋率。
- 虛擬助手:作為虛擬助手的組成部分,幫助理解屏幕內容,執行諸如預訂、查詢和數據輸入等任務。
- 輔助技術:為視覺障礙人士解析屏幕內容,并將其轉換為語音輸出,提供屏幕閱讀功能。
- 用戶界面設計驗證:設計師可以驗證用戶界面設計中的可交互元素是否符合預期功能和語義。
- 跨平臺應用開發:開發者在不同操作系統和設備上測試和優化應用的用戶界面,確保用戶體驗的一致性。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...