谷歌、微軟加入「AI 操控電腦」戰(zhàn)場:谷歌版賈維斯將由Gemini 2.0加持
AIGC動態(tài)歡迎閱讀
原標題:谷歌、微軟加入「AI 操控電腦」戰(zhàn)場:谷歌版賈維斯將由Gemini 2.0加持
關(guān)鍵字:解讀,多少錢,模型,語義,圖標
文章來源:Founder Park
內(nèi)容字數(shù):0字
內(nèi)容摘要:
文章轉(zhuǎn)載自「新智元」。
AI接管人類電腦,就是下一個未來!
幾天前,Anthropic向所有人展示了,Claude 3.5自主看屏幕操作光標完成復(fù)雜任務(wù),足以驚掉下巴。
剛剛,Information獨家爆料稱,谷歌正開發(fā)同類新項目「Project Jarvis」,能將Chrome網(wǎng)頁任務(wù)自動化。
谷歌「賈維斯」將由未來版Gemini 2.0驅(qū)動,預(yù)計在12月亮相。
起這個名字,是為了向鋼鐵俠中的J.A.R.V.I.S致敬。
無獨有偶,微軟團隊悄悄放出的OmniParser,也在篤定AI智能體操控屏幕的未來。
論文地址:https://arxiv.org/pdf/2408.00203
OmniParser主要是一個屏幕解析的工具,可以將截圖轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),幫助AI精準理解用戶意圖。
不僅如此,OpenAI內(nèi)部已有了AI智能體雛形,可以操控計算機完成在線訂餐、自動查詢解決編程難題等任務(wù)。
包括蘋果在內(nèi),預(yù)計在明年發(fā)布跨多個APP屏幕識別能力。最新迭代的Ferret-UI 2,就是通用UI模型。
可見,「Computer use」已經(jīng)成為科技大廠們,重點發(fā)力的下一個戰(zhàn)場。點擊關(guān)注,每天更新
原文鏈接:谷歌、微軟加入「AI 操控電腦」戰(zhàn)場:谷歌版賈維斯將由Gemini 2.0加持
聯(lián)系作者
文章來源:Founder Park
作者微信:
作者簡介: