一句指令自動(dòng)玩手機(jī),網(wǎng)上沖浪神器Mobile-Agent來了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:一句指令自動(dòng)玩手機(jī),網(wǎng)上沖浪神器Mobile-Agent來了
關(guān)鍵字:操作,指令,任務(wù),圖標(biāo),截圖
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6094字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部一直以來,讓 AI 成為手機(jī)操作助手都是一項(xiàng)頗具挑戰(zhàn)性的任務(wù)。在該場(chǎng)景下,AI 需要根據(jù)用戶的要求自動(dòng)操作手機(jī),逐步完成任務(wù)。
隨著多模態(tài)大語(yǔ)言模型(Multimodal Large Language Model,MLLM)的快速發(fā)展,以 MLLM 為基礎(chǔ)的多模態(tài) agent 逐漸應(yīng)用于各種實(shí)際應(yīng)用場(chǎng)景中,這使得借助多模態(tài) agent 實(shí)現(xiàn)手機(jī)操作助手成為了可能。
本文將介紹一篇最新的利用多模態(tài) agent 實(shí)現(xiàn) AI 操作手機(jī)的研究《Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception》。論文地址:https://arxiv.org/abs/2401.16158v1
項(xiàng)目地址:https://github.com/X-PLUG/MobileAgent
能力展示
首先為大家介紹 Mobile-Agent 可以自動(dòng)做哪些有趣的任務(wù)。
下面是一個(gè)在 YouTube 里找相關(guān)視頻并發(fā)表評(píng)論的例子,用戶的要求是在 YouTube 里搜索視頻,找到一個(gè)和某個(gè)明星相
原文鏈接:一句指令自動(dòng)玩手機(jī),網(wǎng)上沖浪神器Mobile-Agent來了
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)