清華大學與智譜 AI 聯(lián)合推出 CogAgent:基于多模態(tài)大模型的 GUI Agent,具備視覺問答、視覺定位等能力
AIGC動態(tài)歡迎閱讀
原標題:清華大學與智譜 AI 聯(lián)合推出 CogAgent:基于多模態(tài)大模型的 GUI Agent,具備視覺問答、視覺定位等能力
關(guān)鍵字:解讀,模型,視覺,圖像,分辨率
文章來源:AI前線
內(nèi)容字數(shù):3775字
內(nèi)容摘要:
作者 | 凌敏
近日,清華 KEG 實驗室與智譜 AI 聯(lián)合推出了視覺 GUI Agent——CogAgent,CogAgent 是一個通用的視覺理解大模型,具備視覺問答、視覺定位(Grounding)、GUI Agent 等多種能力,可接受 1120×1120 的高分辨率圖像輸入。在 9 個經(jīng)典的圖像理解榜單上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成績,并在涵蓋電腦、手機的 GUI Agent 數(shù)據(jù)集上(含 Mind2Web,AITW 等),大幅超過基于 LLM 的 Agent,取得第一。
在網(wǎng)頁 Agent 數(shù)據(jù)集 Mind2Web 上的性能
在手機 Agent 數(shù)據(jù)集 AITW 上的性能
為了更好地促進多模態(tài)大模型、Agent 社區(qū)的發(fā)展,目前團隊已將 CogAgent-18B 開源至 GitHub 倉庫,并提供了網(wǎng)頁版 Demo。
論文鏈接:https://arxiv.org/pdf/2312.08914.pdf
GitHub 項目地址(含開源模型、網(wǎng)頁版 Demo):https://github.com
原文鏈接:清華大學與智譜 AI 聯(lián)合推出 CogAgent:基于多模態(tài)大模型的 GUI Agent,具備視覺問答、視覺定位等能力
聯(lián)系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發(fā)者和科學家,提供AI領(lǐng)域技術(shù)資訊、一線業(yè)界實踐案例、搜羅整理業(yè)界技術(shù)分享干貨、AI論文解讀。每周一節(jié)技術(shù)分享公開課,助力你全面擁抱人工智能技術(shù)。