<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        “顛覆傳統(tǒng)界面:微軟與NUS聯(lián)手推出ShowUI智能GUI代理的實(shí)戰(zhàn)與探索”

        AIGC動(dòng)態(tài)8個(gè)月前發(fā)布 智猩猩GenAI
        480 0 0

        ShowUI模型通過(guò)創(chuàng)新的視覺(jué)處理、多模態(tài)交互和數(shù)據(jù)策略,實(shí)現(xiàn)了高效的GUI交互。

        “顛覆傳統(tǒng)界面:微軟與NUS聯(lián)手推出ShowUI智能GUI代理的實(shí)戰(zhàn)與探索”

        原標(biāo)題:技術(shù)解讀&實(shí)戰(zhàn)!微軟與NUS提出屏幕智能GUI Agent開(kāi)源新秀ShowUI
        文章來(lái)源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):11941字

        1. 引言

        在現(xiàn)代用戶(hù)界面設(shè)計(jì)中,如何高效地與圖形用戶(hù)界面(GUI)進(jìn)行交互成為了一個(gè)重要的研究方向。本文介紹了一款由新加坡國(guó)立大學(xué)Show Lab與微軟共同提出的GUI Agent模型——ShowUI。該模型旨在提升GUI助手的效率,特別是在視覺(jué)-語(yǔ)言-動(dòng)作交互方面。

        2. 模型概述

        ShowUI是一個(gè)視覺(jué)-語(yǔ)言-動(dòng)作模型,通過(guò)創(chuàng)新的視覺(jué)Token選擇、交替的多模態(tài)流和高質(zhì)量的訓(xùn)練數(shù)據(jù)集,實(shí)現(xiàn)了卓越的GUI交互性能。其主要目標(biāo)是解決高分辨率UI截圖中的視覺(jué)Token處理、GUI任務(wù)中的交互管理及高質(zhì)量指令數(shù)據(jù)集的構(gòu)建。

        3. 主要?jiǎng)?chuàng)新

        ShowUI的創(chuàng)新主要體現(xiàn)在以下三個(gè)方面:

        1. UI引導(dǎo)的視覺(jué)Token選擇:通過(guò)構(gòu)建UI連通圖,識(shí)別冗余Token,減少計(jì)算成本。
        2. 交替的視覺(jué)-語(yǔ)言-動(dòng)作流:靈活統(tǒng)一不同模態(tài)的交互,有效管理視覺(jué)-行動(dòng)歷史,提高訓(xùn)練效率。
        3. 精心設(shè)計(jì)的訓(xùn)練數(shù)據(jù)及采樣策略:通過(guò)數(shù)據(jù)分析和重采樣解決數(shù)據(jù)不平衡問(wèn)題。

        4. 實(shí)驗(yàn)結(jié)果

        ShowUI在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色。基于Qwen2-VL-2B模型,ShowUI在零樣本截圖定位任務(wù)上達(dá)到了75.1%的準(zhǔn)確率,并且Token選擇方法減少了33%的冗余視覺(jué)Token,使訓(xùn)練速度提升1.4倍。在Web、Mobile和Online環(huán)境中,展示了強(qiáng)大的導(dǎo)航能力。

        5. 不足之處

        盡管ShowUI在多個(gè)任務(wù)中表現(xiàn)優(yōu)異,但仍存在一些不足之處,包括主要依賴(lài)離線(xiàn)數(shù)據(jù)訓(xùn)練、在線(xiàn)環(huán)境表現(xiàn)有限,以及跨網(wǎng)站和跨域的泛化能力有待提升。

        6. 未來(lái)方向

        未來(lái)的改進(jìn)方向包括開(kāi)發(fā)針對(duì)在線(xiàn)環(huán)境的學(xué)習(xí)策略、提升跨域泛化能力以及增強(qiáng)視覺(jué)UI感知能力等。此外,探索強(qiáng)化學(xué)習(xí)以增強(qiáng)在線(xiàn)交互能力也是一個(gè)值得關(guān)注的研究方向。

        7. 總結(jié)

        ShowUI通過(guò)其創(chuàng)新的視覺(jué)處理與多模態(tài)交互策略,成功實(shí)現(xiàn)了高效的GUI交互。文章提供了有關(guān)模型設(shè)計(jì)、實(shí)驗(yàn)結(jié)果及未來(lái)改進(jìn)方向的詳細(xì)討論,為GUI助手的研究提供了有價(jià)值的參考。


        聯(lián)系作者

        文章來(lái)源:智猩猩GenAI
        作者微信:
        作者簡(jiǎn)介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 免费国产黄网站在线观看可以下载| 日韩免费一级毛片| 野花高清在线电影观看免费视频| 亚洲国产成人精品无码区花野真一 | 91免费国产精品| 亚洲第一香蕉视频| 国产亚洲美日韩AV中文字幕无码成人| 久久免费国产精品| 亚洲国产最大av| 亚洲精品无码久久久久AV麻豆| 亚洲一级毛片中文字幕| 免费高清小黄站在线观看| 嫩草在线视频www免费观看| 四虎一区二区成人免费影院网址| 亚洲国产av高清无码| 亚洲白嫩在线观看| 亚洲一区免费观看| 亚洲国产精品成人久久久 | jizzjizz亚洲日本少妇| 亚洲三级中文字幕| 美女网站免费福利视频| 亚洲精品456在线播放| 亚洲视频一区二区三区| 精品国产成人亚洲午夜福利| 亚洲熟妇自偷自拍另欧美| 四虎免费在线观看| MM1313亚洲国产精品| 中文字幕免费在线看电影大全 | a级毛片毛片免费观看久潮喷| 中文字幕免费不卡二区| 亚洲黄色免费电影| 亚洲av成人中文无码专区| 小日子的在线观看免费| 日韩吃奶摸下AA片免费观看| 妞干网手机免费视频| 亚洲国产精品无码久久一线| 亚洲性色成人av天堂| 一级毛片aaaaaa视频免费看| 亚洲熟妇色自偷自拍另类| 在线免费观看亚洲| 日本免费观看网站|