<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        ScreenAgent

        AI工具6個月前發(fā)布 AI工具集
        1,050 0 0

        ScreenAgent是一款由吉林大學(xué)人工智能學(xué)院的研究團(tuán)隊研發(fā)的計算機(jī)控制智能體,基于視覺語言模型(VLM)構(gòu)建,能夠與真實計算機(jī)屏幕進(jìn)行智能交互。它的核心優(yōu)勢在于通過分析屏幕截圖,生成相應(yīng)的鼠標(biāo)和鍵盤操作,從而實現(xiàn)對圖形用戶界面的有效操控,完成多步驟的復(fù)雜任務(wù)。

        ScreenAgent是什么

        ScreenAgent是吉林大學(xué)人工智能學(xué)院研究團(tuán)隊開發(fā)的一款智能計算機(jī)控制代理,利用視覺語言模型(VLM),使其能夠與計算機(jī)屏幕進(jìn)行實時交互。研究者們設(shè)計了一個“計劃-執(zhí)行-反思”的工作流程,以指導(dǎo)智能體與計算機(jī)屏幕的持續(xù)互動。它的主要功能是根據(jù)屏幕截圖生成相應(yīng)的鼠標(biāo)和鍵盤動作,以便操控圖形用戶界面(GUI),從而完成復(fù)雜的多步驟任務(wù)。

        ScreenAgent

        ScreenAgent的官網(wǎng)入口

        ScreenAgent的運行流程

        ScreenAgent

        • 屏幕觀察:ScreenAgent能夠?qū)崟r觀察和理解計算機(jī)屏幕上的內(nèi)容,通過VNC協(xié)議獲取桌面操作系統(tǒng)的實時圖像。
        • 動作生成:在分析完整的屏幕截圖后,ScreenAgent能生成相應(yīng)的鼠標(biāo)和鍵盤操作。這些操作以JSON格式輸出,包括移動鼠標(biāo)、點擊、雙擊、滾動、拖動及鍵盤輸入等。
        • 任務(wù)規(guī)劃:根據(jù)用戶的任務(wù)提示,ScreenAgent能夠?qū)?fù)雜任務(wù)分解成多個子任務(wù),并為每個子任務(wù)制定相應(yīng)的動作序列,這需要對任務(wù)的理解和策略制定。
        • 執(zhí)行動作:在規(guī)劃完成后,ScreenAgent會執(zhí)行已規(guī)劃的子任務(wù),通過發(fā)送鼠標(biāo)和鍵盤命令,實現(xiàn)用戶的目標(biāo)。
        • 反思評估:在執(zhí)行動作后,ScreenAgent會評估結(jié)果,決定是否重試當(dāng)前子任務(wù)、繼續(xù)下一個子任務(wù)或調(diào)整整體計劃。

        ScreenAgent的技術(shù)原理

        • 視覺語言模型(VLM)
          • VLM是一種綜合視覺和語言處理能力的模型,能夠理解圖像內(nèi)容并生成相應(yīng)的自然語言描述。
          • 在ScreenAgent中,VLM用于解析屏幕截圖,理解用戶的任務(wù)提示,并規(guī)劃一系列動作以完成任務(wù)。
        • 強化學(xué)習(xí)環(huán)境
          • ScreenAgent通過VNC協(xié)議與真實計算機(jī)屏幕互動,創(chuàng)建了一個強化學(xué)習(xí)環(huán)境。在此環(huán)境中,智能體可以觀察屏幕狀態(tài)(狀態(tài)空間)、執(zhí)行動作(動作空間),并根據(jù)結(jié)果獲得獎勵(獎勵函數(shù))。
        • 控制流程
          • 計劃(Planning):智能體根據(jù)當(dāng)前屏幕截圖和任務(wù)提示,分解任務(wù)并規(guī)劃一系列子任務(wù)和相應(yīng)的動作序列。
          • 執(zhí)行(Acting):智能體根據(jù)規(guī)劃階段的輸出,通過發(fā)送鼠標(biāo)和鍵盤命令來操控計算機(jī)界面。
          • 反思(Reflecting):智能體評估執(zhí)行動作后的結(jié)果,決定是否需要重試、繼續(xù)或調(diào)整計劃。
        • 數(shù)據(jù)集和評估
          • ScreenAgent數(shù)據(jù)集包含了完成各種日常計算機(jī)任務(wù)時的屏幕截圖和動作序列,用于模型的訓(xùn)練和評估。
          • CC-Score(Vision Language Computer Control Score)是一個細(xì)粒度的評估指標(biāo),用于衡量智能體在計算機(jī)控制任務(wù)中的表現(xiàn)。
        • 模型訓(xùn)練
          • ScreenAgent模型通過在ScreenAgent數(shù)據(jù)集上進(jìn)行訓(xùn)練,學(xué)習(xí)如何有效地規(guī)劃、執(zhí)行和反思,以完成復(fù)雜的計算機(jī)控制任務(wù)。訓(xùn)練過程中采用多種技術(shù),包括監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)以及人類反饋循環(huán)(RLHF)等。

        應(yīng)用場景

        ScreenAgent可以廣泛應(yīng)用于自動化辦公、軟件測試、游戲操作等領(lǐng)域,幫助用戶高效完成復(fù)雜的計算機(jī)任務(wù),提升工作效率。

        常見問題

        • ScreenAgent的主要優(yōu)勢是什么?
          ScreenAgent結(jié)合了視覺理解與自動化操作能力,能夠高效地處理復(fù)雜的計算機(jī)任務(wù),減少人工干預(yù)。
        • 如何開始使用ScreenAgent?
          用戶可以通過訪問其[GitHub代碼庫](https://github.com/niuzaisheng/ScreenAgent)獲取相關(guān)代碼和使用說明。
        • ScreenAgent支持哪些操作系統(tǒng)?
          ScreenAgent通過VNC協(xié)議與計算機(jī)屏幕交互,通常支持主流操作系統(tǒng),如Windows和Linux。
        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲AV无码乱码在线观看| 在线电影你懂的亚洲| 国产免费网站看v片在线| 亚洲的天堂av无码| 国产aa免费视频| 午夜老司机永久免费看片| 国产精品久久亚洲不卡动漫| 波多野结衣中文一区二区免费| 日韩精品在线免费观看| 亚洲妇女熟BBW| 亚洲人成人一区二区三区| 成年性午夜免费视频网站不卡| 一个人看的在线免费视频| 亚洲国产精品久久丫| 亚洲午夜精品一级在线播放放| 8x网站免费入口在线观看| 国产亚洲精品2021自在线| 亚洲色图综合网站| 亚洲色偷拍区另类无码专区| 久久免费看黄a级毛片 | 日韩免费高清一级毛片| 亚洲酒色1314狠狠做| 亚洲中文字幕丝袜制服一区| 免费阿v网站在线观看g| 日本免费A级毛一片| 美女被免费网站视频在线| 亚洲精品网站在线观看你懂的| 亚洲综合精品网站| 国产网站免费观看| 成人在线免费看片| 大地资源中文在线观看免费版| 免费大片黄在线观看| 亚洲中文字幕无码爆乳app| 久久久亚洲欧洲日产国码aⅴ| 亚洲男人在线无码视频| 日本免费观看网站| 毛片A级毛片免费播放| 久久午夜夜伦鲁鲁片免费无码影视| 国产一级a毛一级a看免费视频| 色天使色婷婷在线影院亚洲| 亚洲人成图片网站|