“顛覆傳統(tǒng)界面:微軟與NUS聯(lián)手推出ShowUI智能GUI代理的實(shí)戰(zhàn)與探索”
ShowUI模型通過(guò)創(chuàng)新的視覺(jué)處理、多模態(tài)交互和數(shù)據(jù)策略,實(shí)現(xiàn)了高效的GUI交互。
原標(biāo)題:技術(shù)解讀&實(shí)戰(zhàn)!微軟與NUS提出屏幕智能GUI Agent開(kāi)源新秀ShowUI
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):11941字
1. 引言
在現(xiàn)代用戶(hù)界面設(shè)計(jì)中,如何高效地與圖形用戶(hù)界面(GUI)進(jìn)行交互成為了一個(gè)重要的研究方向。本文介紹了一款由新加坡國(guó)立大學(xué)Show Lab與微軟共同提出的GUI Agent模型——ShowUI。該模型旨在提升GUI助手的效率,特別是在視覺(jué)-語(yǔ)言-動(dòng)作交互方面。
2. 模型概述
ShowUI是一個(gè)視覺(jué)-語(yǔ)言-動(dòng)作模型,通過(guò)創(chuàng)新的視覺(jué)Token選擇、交替的多模態(tài)流和高質(zhì)量的訓(xùn)練數(shù)據(jù)集,實(shí)現(xiàn)了卓越的GUI交互性能。其主要目標(biāo)是解決高分辨率UI截圖中的視覺(jué)Token處理、GUI任務(wù)中的交互管理及高質(zhì)量指令數(shù)據(jù)集的構(gòu)建。
3. 主要?jiǎng)?chuàng)新
ShowUI的創(chuàng)新主要體現(xiàn)在以下三個(gè)方面:
- UI引導(dǎo)的視覺(jué)Token選擇:通過(guò)構(gòu)建UI連通圖,識(shí)別冗余Token,減少計(jì)算成本。
- 交替的視覺(jué)-語(yǔ)言-動(dòng)作流:靈活統(tǒng)一不同模態(tài)的交互,有效管理視覺(jué)-行動(dòng)歷史,提高訓(xùn)練效率。
- 精心設(shè)計(jì)的訓(xùn)練數(shù)據(jù)及采樣策略:通過(guò)數(shù)據(jù)分析和重采樣解決數(shù)據(jù)不平衡問(wèn)題。
4. 實(shí)驗(yàn)結(jié)果
ShowUI在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色。基于Qwen2-VL-2B模型,ShowUI在零樣本截圖定位任務(wù)上達(dá)到了75.1%的準(zhǔn)確率,并且Token選擇方法減少了33%的冗余視覺(jué)Token,使訓(xùn)練速度提升1.4倍。在Web、Mobile和Online環(huán)境中,展示了強(qiáng)大的導(dǎo)航能力。
5. 不足之處
盡管ShowUI在多個(gè)任務(wù)中表現(xiàn)優(yōu)異,但仍存在一些不足之處,包括主要依賴(lài)離線(xiàn)數(shù)據(jù)訓(xùn)練、在線(xiàn)環(huán)境表現(xiàn)有限,以及跨網(wǎng)站和跨域的泛化能力有待提升。
6. 未來(lái)方向
未來(lái)的改進(jìn)方向包括開(kāi)發(fā)針對(duì)在線(xiàn)環(huán)境的學(xué)習(xí)策略、提升跨域泛化能力以及增強(qiáng)視覺(jué)UI感知能力等。此外,探索強(qiáng)化學(xué)習(xí)以增強(qiáng)在線(xiàn)交互能力也是一個(gè)值得關(guān)注的研究方向。
7. 總結(jié)
ShowUI通過(guò)其創(chuàng)新的視覺(jué)處理與多模態(tài)交互策略,成功實(shí)現(xiàn)了高效的GUI交互。文章提供了有關(guān)模型設(shè)計(jì)、實(shí)驗(yàn)結(jié)果及未來(lái)改進(jìn)方向的詳細(xì)討論,為GUI助手的研究提供了有價(jià)值的參考。
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。