操作系統智能交互難題。
原標題:解放雙手!OSCAR讓操作系統交互實現自然語言「」
文章來源:機器之心
內容字數:4967字
機器之心AIxiv專欄:OSCAR——開啟操作系統交互新時代的開源解決方案
本文介紹了加拿大蒙特利爾大學和Mila研究所研究團隊的開源項目OSCAR,一個用于操作系統UI自動化的新型智能體。該研究已被ICLR錄用,其創新之處在于結合了靈活的狀態機和動態重規劃能力,實現了在不同操作系統(Windows、Ubuntu、Android)上的泛化與驗證。
1. 桌面任務UI自動化的挑戰
現有的基于多模態大型語言模型(MLLM)的智能體在處理復雜任務時,存在通用性差、難以適應復雜工作流、缺乏實時反饋和自適應調整等問題。尤其是在面對動態的UI環境和多種操作路徑時,傳統智能體難以應對。
2. OSCAR的創新設計
為了解決上述挑戰,OSCAR采用了以下創新設計:
- 狀態機架構:OSCAR 通過“初始化-觀察-規劃-執行-驗證”循環處理任務,并利用實時反饋進行動態重規劃,提高效率和適應性。
- 視覺和語義雙重UI定位:OSCAR 結合Set-of-Mark(SoM)提示技術、可訪問性(A11Y)樹和描述性標簽,實現精準的UI元素定位。
- 任務驅動重新規劃:OSCAR 將用戶指令分解為子任務,并根據反饋對特定子任務進行重規劃,提高效率并防止錯誤傳播。
- 基于代碼的動作:OSCAR 利用生成的語義定位信息,通過PyAutoGUI庫生成控制代碼,精確控制操作系統。
3. OSCAR的實驗驗證
研究人員在GAIA、OSWorld、AndroidWorld等基準數據集上對OSCAR進行了評估,結果顯示:
- 基準測評成績突出:OSCAR在所有基準測試中均取得了最佳成績,尤其在GAIA基準測試中最復雜的Level 3任務上,成功率達到13.5%,幾乎是之前最先進方法的兩倍。
- 規劃效率優勢顯著:OSCAR在成功案例中重新規劃次數更少,效率更高;在失敗案例中,其重新規劃冗余度也明顯低于其他智能體系統。
4. 結語
OSCAR作為一款開源的通用智能體,憑借其靈活的狀態機和動態重規劃能力,在桌面和智能手機操作系統任務中展現出強大的適應性和有效性。它為自動化工作流提供了高效通用的解決方案,有望成為提升生產力的有力工具,并推動通用人工智能與數字世界實現更完美的交互。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...