Gemini 2.5 Computer Use – 谷歌推出的計(jì)算機(jī)使用模型
谷歌 DeepMind 繼 Gemini 2.5 之后,又推出了革新性的 Gemini 2.5 Computer Use 模型,它賦予了人工智能前所未有的能力——直接操控瀏覽器。這項(xiàng)突破性技術(shù)允許 AI 像人類一樣,精準(zhǔn)執(zhí)行點(diǎn)擊、滑動(dòng)、文字輸入等一系列交互動(dòng)作,將用戶與數(shù)字世界的互動(dòng)推向了一個(gè)全新的維度。
Gemini 2.5 Computer Use 揭秘
Gemini 2.5 Computer Use 是谷歌 DeepMind 團(tuán)隊(duì)打造的一款基于 Gemini 2.5 強(qiáng)大能力的計(jì)算機(jī)使用模型。它能夠讓 AI 躍過傳統(tǒng)的接口限制,直接與瀏覽器進(jìn)行互動(dòng),完成諸如點(diǎn)擊鏈接、滾動(dòng)頁面、填寫表單等精細(xì)操作。憑借其卓越的視覺理解和推理能力,該模型能夠深刻洞察網(wǎng)頁內(nèi)容,從而協(xié)助用戶高效完成各類任務(wù),例如從海量網(wǎng)頁中精準(zhǔn)提取所需信息,或是井井有條地整理個(gè)人筆記。在各項(xiàng)基準(zhǔn)測(cè)試中,Gemini 2.5 Computer Use 都展現(xiàn)出了令人矚目的優(yōu)異表現(xiàn),并且響應(yīng)速度極快。開發(fā)者可以通過 Google AI Studio 和 Vertex AI 平臺(tái)便捷地集成和使用此模型,而普通用戶則可以在 Browserbase 提供的托管演示環(huán)境中親身體驗(yàn)其神奇之處。
Gemini 2.5 Computer Use 的核心能力
- 精妙的瀏覽器操控:模型能夠直接在瀏覽器界面上執(zhí)行點(diǎn)擊、滾動(dòng)、輸入等基礎(chǔ)操作,為用戶在網(wǎng)絡(luò)世界中的各類任務(wù)提供強(qiáng)大的自動(dòng)化支持。
- 多步驟任務(wù)的自動(dòng)化執(zhí)行:它能夠勝任處理一系列復(fù)雜、多步驟的任務(wù),例如,從一個(gè)網(wǎng)站抓取數(shù)據(jù)并無縫地將其錄入另一個(gè)系統(tǒng),或是智能化地安排后續(xù)的預(yù)約事宜。
- 強(qiáng)大的視覺洞察與智能推理:通過對(duì)網(wǎng)頁視覺元素的深度解析,模型能夠識(shí)別頁面上的各種組件,并根據(jù)用戶的指令進(jìn)行智能推理,預(yù)測(cè)并執(zhí)行下一步的最佳操作。
- 嚴(yán)謹(jǐn)?shù)陌踩U蠙C(jī)制:在執(zhí)行每一項(xiàng)動(dòng)作之前,的安保服務(wù)都會(huì)對(duì)潛在風(fēng)險(xiǎn)進(jìn)行周全的評(píng)估。對(duì)于高風(fēng)險(xiǎn)的操作,模型會(huì)主動(dòng)請(qǐng)求用戶確認(rèn),從而確保整個(gè)過程的安全無虞。
Gemini 2.5 Computer Use 的技術(shù)基石
- 核心驅(qū)動(dòng)力:該模型通過 Gemini API 中新增的
computer_use工具實(shí)現(xiàn),該工具賦予了模型直接與用戶界面進(jìn)行交互的能力。 - 信息輸入與輸出流:
- 輸入信息:包括用戶的具體指令、當(dāng)前屏幕畫面的截圖,以及之前執(zhí)行過的操作記錄。用戶還可以選擇性地排除某些 UI 動(dòng)作,或者集成自定義的函數(shù)功能。
- 輸出信息:模型會(huì)生成相應(yīng)的響應(yīng),通常表現(xiàn)為代表 UI 操作的函數(shù)調(diào)用,例如點(diǎn)擊、輸入或滾動(dòng)等。對(duì)于一些高風(fēng)險(xiǎn)的操作,模型會(huì)主動(dòng)向用戶發(fā)起確認(rèn)請(qǐng)求。
- 持續(xù)循環(huán)的執(zhí)行流程:模型在一個(gè)動(dòng)態(tài)的循環(huán)流程中運(yùn)行。在每次執(zhí)行完一個(gè)動(dòng)作后,系統(tǒng)會(huì)將最新的屏幕截圖和當(dāng)前網(wǎng)頁地址反饋給模型,從而重新啟動(dòng)新的循環(huán)。這個(gè)循環(huán)會(huì)一直持續(xù)下去,直到任務(wù)成功完成、出現(xiàn)意外錯(cuò)誤,或者因?yàn)榘踩珯C(jī)制的介入或用戶的決定而終止。
- 完善的安全防護(hù)體系:在模型的推理階段,一個(gè)的安保服務(wù)會(huì)對(duì)模型擬執(zhí)行的每一個(gè)動(dòng)作進(jìn)行嚴(yán)格的審查,以確保操作的安全性。開發(fā)者可以設(shè)定在面對(duì)特定高風(fēng)險(xiǎn)操作時(shí),智能體必須拒絕執(zhí)行,或者必須先征得用戶的同意。例如,這項(xiàng)機(jī)制可以有效阻止模型繞過驗(yàn)證碼,或是不當(dāng)?shù)夭倏蒯t(yī)療設(shè)備等。
Gemini 2.5 Computer Use 的探索入口
- 官方資訊頁面:https://blog.google/technology/google-deepmind/gemini-computer-use-model/
- 深度技術(shù)解析:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf
Gemini 2.5 Computer Use 的廣闊應(yīng)用前景
- 高效的 UI 測(cè)試助手:為開發(fā)者提供強(qiáng)大的支持,能夠快速自動(dòng)化地測(cè)試用戶界面,執(zhí)行各種交互操作,從而極大地提升軟件開發(fā)的效率。
- 個(gè)性化的智能助理:為用戶提供量身定制的任務(wù)自動(dòng)化服務(wù),例如自動(dòng)填寫各類表單、智能安排會(huì)議預(yù)約,或是高效地整理和歸類個(gè)人信息。
- 流程優(yōu)化的工作流自動(dòng)化:有效簡化重復(fù)性、耗時(shí)的工作,如繁瑣的數(shù)據(jù)錄入、信息搜集,以及跨平臺(tái)的復(fù)雜操作,顯著提高工作生產(chǎn)力。
- 卓越的客戶服務(wù)解決方案:能夠自動(dòng)處理客戶的各種請(qǐng)求,例如在客戶支持系統(tǒng)中自動(dòng)創(chuàng)建和填寫工單,或是快速查詢相關(guān)信息,從而大幅縮短響應(yīng)時(shí)間。
- 革新的教育與培訓(xùn)工具:為在線學(xué)習(xí)平臺(tái)提供有力支持,協(xié)助學(xué)生完成各類練習(xí)或模擬操作,顯著增強(qiáng)學(xué)習(xí)的互動(dòng)性和實(shí)踐性。
# AI工具# AI項(xiàng)目和框架# Gemini25AI代碼生成器# Gemini25AI代碼補(bǔ)全工具# Gemini25AI代碼調(diào)試器# Gemini25AI代碼重構(gòu)助手# Gemini25AI編程助手
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)