OmniParser

OmniParser是一款由微軟研究院開發的屏幕解析工具，旨在將用戶界面的屏幕截圖轉化為結構化的數據。這一工具專為提升基于大型語言模型（如GPT-4V）的用戶界面代理系統的表現而設計，通過準確識別可交互圖標和理解截圖中元素的語義，增強代理執行任務的能力。

OmniParser是什么

OmniParser是微軟研究院推出的一種屏幕解析工具，能夠將用戶界面的屏幕截圖轉化為結構化的數據。該工具旨在提高基于大型語言模型（如GPT-4V）的用戶界面代理系統的性能，通過精準識別可交互的圖標和理解截圖中的元素語義，增強代理執行任務的能力。OmniParser借助微調的模型來提取屏幕中的交互區域及其功能語義，在多個基準測試中顯著提升了操作的準確性和代理的整體性能，而無需依賴額外的信息如HTML或視圖層次結構。

OmniParser

OmniParser的主要功能

解析用戶界面截圖：將用戶界面的屏幕截圖轉化為結構化元素，包括可交互的圖標和文本。
識別可交互區域：使用專門的檢測模型識別并標記用戶界面中的可交互區域，如按鈕和圖標。
提取功能語義：運用描述模型提取檢測到的元素的功能語義，為用戶任務生成相關描述。
提升代理性能：結合解析結果，提高基于大型語言模型（如GPT-4V）的用戶界面代理在執行任務時的精確度和效率。
跨平臺兼容：支持多種操作系統和應用程序，包括Windows、MacOS、iOS、Android，以及多種Web瀏覽器和桌面應用。
數據提取：無需依賴HTML或視圖層次結構等額外信息，能夠從視覺截圖中提取必要數據。

OmniParser的技術原理

數據集構建：從廣泛使用的網頁和應用中提取數據，構建可交互圖標檢測和描述的數據集。
模型微調：
- 檢測模型：使用YOLOv8模型在可交互圖標檢測數據集上進行微調，以識別和定位用戶界面中的可交互區域。
- 描述模型：使用BLIP-v2模型在圖標描述數據集上進行微調，以生成圖標的功能性描述。
集成OCR模塊：結合光學字符識別（OCR）模塊，從屏幕中提取文本，并與圖標檢測結果合并，同時去除重疊的邊界框。
結構化表示：將檢測到的元素和生成的描述整合，形成結構化的文檔對象模型（DOM）表示，并在潛在可交互元素上疊加邊界框的截圖。
行動預測：結合結構化元素和功能語義，減輕大型語言模型在行動預測時的負擔，更精準地將預測的行動轉換為屏幕上的實際操作。