微軟開源視覺GUI智能體:增強(qiáng)GPT-4V能力,超3800顆星
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:微軟開源視覺GUI智能體:增強(qiáng)GPT-4V能力,超3800顆星
關(guān)鍵字:圖標(biāo),模型,侵權(quán),研究人員,能力
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
文章轉(zhuǎn)載自公眾號(hào):AIGC開放社區(qū),本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。
隨著GPT-4V等多模態(tài)視覺大模型的出現(xiàn),在理解和推理視覺內(nèi)容方面獲得了巨大進(jìn)步。但是將預(yù)測的動(dòng)作準(zhǔn)確轉(zhuǎn)換為UI上的實(shí)際操作時(shí)卻很難。
例如,難以準(zhǔn)確識(shí)別用戶界面內(nèi)可交互的圖標(biāo),以及在理解屏幕截圖中各種元素的語義并將預(yù)期動(dòng)作與屏幕上相應(yīng)區(qū)域的關(guān)聯(lián)。
為了解決這個(gè)難題,微軟研究人員開源了純視覺GUI智能體OmniParser,能夠輕松將用戶界面截圖解析為結(jié)構(gòu)化元素,顯著增強(qiáng)GPT-4V等模型對(duì)應(yīng)界面區(qū)域預(yù)測的能力。目前,OmniParser在Github上非常火,已經(jīng)超過3800顆星。開源地址:https://github.com/microsoft/OmniParserOmniParser功能展示
通常在UI識(shí)別操作任務(wù)中,模型需要具備兩個(gè)關(guān)鍵能力:一是理解當(dāng)前UI屏幕的內(nèi)容,包括分析整體布局以及識(shí)別帶有數(shù)字 ID 標(biāo)注的圖標(biāo)的功能;二是基于當(dāng)前屏幕狀態(tài)預(yù)測下一步有助于完成任務(wù)的動(dòng)作。
研究人員發(fā)現(xiàn),將這兩個(gè)任務(wù)整合在一個(gè)模型中執(zhí)行會(huì)給模型帶來較大負(fù)擔(dān),影響其性能表現(xiàn)。因此,OmniParser 采用了一
原文鏈接:微軟開源視覺GUI智能體:增強(qiáng)GPT-4V能力,超3800顆星
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介: