ScreenAgent是一款由吉林大學(xué)人工智能學(xué)院的研究團(tuán)隊研發(fā)的計算機(jī)控制智能體,基于視覺語言模型(VLM)構(gòu)建,能夠與真實計算機(jī)屏幕進(jìn)行智能交互。它的核心優(yōu)勢在于通過分析屏幕截圖,生成相應(yīng)的鼠標(biāo)和鍵盤操作,從而實現(xiàn)對圖形用戶界面的有效操控,完成多步驟的復(fù)雜任務(wù)。
ScreenAgent是什么
ScreenAgent是吉林大學(xué)人工智能學(xué)院研究團(tuán)隊開發(fā)的一款智能計算機(jī)控制代理,利用視覺語言模型(VLM),使其能夠與計算機(jī)屏幕進(jìn)行實時交互。研究者們設(shè)計了一個“計劃-執(zhí)行-反思”的工作流程,以指導(dǎo)智能體與計算機(jī)屏幕的持續(xù)互動。它的主要功能是根據(jù)屏幕截圖生成相應(yīng)的鼠標(biāo)和鍵盤動作,以便操控圖形用戶界面(GUI),從而完成復(fù)雜的多步驟任務(wù)。
ScreenAgent的官網(wǎng)入口
- 官方GitHub代碼庫:https://github.com/niuzaisheng/ScreenAgent
- Arxiv研究論文入口:https://arxiv.org/abs/2402.07945
ScreenAgent的運行流程
- 屏幕觀察:ScreenAgent能夠?qū)崟r觀察和理解計算機(jī)屏幕上的內(nèi)容,通過VNC協(xié)議獲取桌面操作系統(tǒng)的實時圖像。
- 動作生成:在分析完整的屏幕截圖后,ScreenAgent能生成相應(yīng)的鼠標(biāo)和鍵盤操作。這些操作以JSON格式輸出,包括移動鼠標(biāo)、點擊、雙擊、滾動、拖動及鍵盤輸入等。
- 任務(wù)規(guī)劃:根據(jù)用戶的任務(wù)提示,ScreenAgent能夠?qū)?fù)雜任務(wù)分解成多個子任務(wù),并為每個子任務(wù)制定相應(yīng)的動作序列,這需要對任務(wù)的理解和策略制定。
- 執(zhí)行動作:在規(guī)劃完成后,ScreenAgent會執(zhí)行已規(guī)劃的子任務(wù),通過發(fā)送鼠標(biāo)和鍵盤命令,實現(xiàn)用戶的目標(biāo)。
- 反思評估:在執(zhí)行動作后,ScreenAgent會評估結(jié)果,決定是否重試當(dāng)前子任務(wù)、繼續(xù)下一個子任務(wù)或調(diào)整整體計劃。
ScreenAgent的技術(shù)原理
- 視覺語言模型(VLM):
- VLM是一種綜合視覺和語言處理能力的模型,能夠理解圖像內(nèi)容并生成相應(yīng)的自然語言描述。
- 在ScreenAgent中,VLM用于解析屏幕截圖,理解用戶的任務(wù)提示,并規(guī)劃一系列動作以完成任務(wù)。
- 強化學(xué)習(xí)環(huán)境:
- ScreenAgent通過VNC協(xié)議與真實計算機(jī)屏幕互動,創(chuàng)建了一個強化學(xué)習(xí)環(huán)境。在此環(huán)境中,智能體可以觀察屏幕狀態(tài)(狀態(tài)空間)、執(zhí)行動作(動作空間),并根據(jù)結(jié)果獲得獎勵(獎勵函數(shù))。
- 控制流程:
- 計劃(Planning):智能體根據(jù)當(dāng)前屏幕截圖和任務(wù)提示,分解任務(wù)并規(guī)劃一系列子任務(wù)和相應(yīng)的動作序列。
- 執(zhí)行(Acting):智能體根據(jù)規(guī)劃階段的輸出,通過發(fā)送鼠標(biāo)和鍵盤命令來操控計算機(jī)界面。
- 反思(Reflecting):智能體評估執(zhí)行動作后的結(jié)果,決定是否需要重試、繼續(xù)或調(diào)整計劃。
- 數(shù)據(jù)集和評估:
- ScreenAgent數(shù)據(jù)集包含了完成各種日常計算機(jī)任務(wù)時的屏幕截圖和動作序列,用于模型的訓(xùn)練和評估。
- CC-Score(Vision Language Computer Control Score)是一個細(xì)粒度的評估指標(biāo),用于衡量智能體在計算機(jī)控制任務(wù)中的表現(xiàn)。
- 模型訓(xùn)練:
- ScreenAgent模型通過在ScreenAgent數(shù)據(jù)集上進(jìn)行訓(xùn)練,學(xué)習(xí)如何有效地規(guī)劃、執(zhí)行和反思,以完成復(fù)雜的計算機(jī)控制任務(wù)。訓(xùn)練過程中采用多種技術(shù),包括監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)以及人類反饋循環(huán)(RLHF)等。
應(yīng)用場景
ScreenAgent可以廣泛應(yīng)用于自動化辦公、軟件測試、游戲操作等領(lǐng)域,幫助用戶高效完成復(fù)雜的計算機(jī)任務(wù),提升工作效率。
常見問題
- ScreenAgent的主要優(yōu)勢是什么?
ScreenAgent結(jié)合了視覺理解與自動化操作能力,能夠高效地處理復(fù)雜的計算機(jī)任務(wù),減少人工干預(yù)。 - 如何開始使用ScreenAgent?
用戶可以通過訪問其[GitHub代碼庫](https://github.com/niuzaisheng/ScreenAgent)獲取相關(guān)代碼和使用說明。 - ScreenAgent支持哪些操作系統(tǒng)?
ScreenAgent通過VNC協(xié)議與計算機(jī)屏幕交互,通常支持主流操作系統(tǒng),如Windows和Linux。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...