Magentic-UI – 微軟開源的人機協(xié)作Web?Agent
XX是什么
XX 是微軟推出的一個開源研究原型,旨在探索人類與AI代理系統(tǒng)的協(xié)作方式。作為一款以人為中心的Web代理,XX能夠與用戶共同完成復雜的Web任務,如網(wǎng)頁瀏覽、代碼執(zhí)行和文件處理。其核心特點包括協(xié)作規(guī)劃、協(xié)作執(zhí)行、安全機制以及通過經(jīng)驗學習提升效率。XX設計的初衷是讓用戶在任務的規(guī)劃與執(zhí)行過程中實時參與,從而提供透明且可控的交互體驗。通過用戶的反饋,XX能夠提高任務完成的效率,降低人工成本,成為研究人機協(xié)作的重要實驗平臺。
XX的主要功能
- 協(xié)作規(guī)劃:在執(zhí)行任務之前,生成分步計劃,用戶可以進行修改和確認,以確保任務的順利進行。
- 協(xié)作執(zhí)行:實時展示即將執(zhí)行的操作,用戶可以隨時接管任務控制,確保任務執(zhí)行符合其需求。
- 安全機制:在進行重要或不可逆操作前,系統(tǒng)會征求用戶的批準,并允許用戶自定義審批策略,確保操作的安全性。
- 學習復用:完成任務后,系統(tǒng)會保存執(zhí)行計劃,用戶可以在未來的任務中復用或調(diào)整這些計劃,以提升效率。
XX的技術(shù)原理
- 系統(tǒng)架構(gòu):XX基于AutoGen的Magentic-One系統(tǒng),由多個專業(yè)代理組成,協(xié)同工作以完成任務。協(xié)調(diào)者(Orchestrator)由大型語言模型驅(qū)動,負責與用戶進行協(xié)作規(guī)劃,決定何時需要用戶反饋,并將子任務分配給其他代理執(zhí)行。網(wǎng)頁瀏覽代理(WebSurfer)具備瀏覽器控制能力,能夠執(zhí)行點擊、輸入和滾動等操作,完成分配的網(wǎng)頁任務。代碼執(zhí)行代理(Coder)配備Docker代碼執(zhí)行容器,將結(jié)果反饋給協(xié)調(diào)者。文件處理代理(FileSurfer)利用Docker容器和文件轉(zhuǎn)換工具,能夠定位文件、轉(zhuǎn)換文件格式,并回答有關(guān)文件的問題。
- 交互流程:用戶通過輸入文本消息和附加圖像與XX進行交互。協(xié)調(diào)者根據(jù)用戶輸入生成自然語言的分步計劃,用戶可以在計劃上進行編輯。協(xié)調(diào)者會根據(jù)每個步驟決定由哪個代理或用戶執(zhí)行,并發(fā)送請求等待響應。所有步驟完成后,協(xié)調(diào)者會生成最終答案展示給用戶。如果在執(zhí)行過程中發(fā)現(xiàn)計劃不足,協(xié)調(diào)者會在獲得用戶許可后重新規(guī)劃新的執(zhí)行計劃。
- 安全與控制:用戶可以設置XX可以訪問的網(wǎng)站列表,訪問列表外的網(wǎng)站需獲得用戶明確批準。用戶可以在XX執(zhí)行任務的任意階段中斷任務,停止任何待執(zhí)行的操作。XX控制的瀏覽器和代碼執(zhí)行器都在Docker容器中運行,以避免對主機環(huán)境造成影響,防止登錄憑證泄露等安全風險。用戶還可以配置行動審批策略,決定在執(zhí)行某些操作時是否需要用戶批準。
XX的項目地址
- 項目官網(wǎng):https://www.microsoft.com/en-us/research/blog/magentic-ui
- GitHub倉庫:https://github.com/microsoft/magentic-ui
XX的應用場景
- 復雜任務的自動化:幫助用戶完成多步驟的Web任務,如比較產(chǎn)品價格、填寫在線表單或進行旅行預訂。
- 代碼編寫與執(zhí)行輔助:生成代碼片段,安全地執(zhí)行代碼,如用于數(shù)據(jù)分析或腳本編寫。
- 文件處理與信息檢索:轉(zhuǎn)換文件格式、搜索文件內(nèi)容并回答相關(guān)問題。
- 研究與開發(fā):為研究人員提供實驗平臺,探索人機協(xié)作的新方式。
- 教育與培訓:作為教學工具,幫助學習任務規(guī)劃和AI協(xié)作的相關(guān)知識。
常見問題
- XX適合哪些用戶使用?:XX適合任何希望提高Web任務效率的用戶,尤其是需要處理復雜任務的研究人員和開發(fā)者。
- 如何開始使用XX?:用戶可以訪問項目官網(wǎng)或GitHub倉庫下載并安裝XX,按照說明進行設置。
- XX是否安全?:XX設計了多重安全機制,確保用戶的操作安全,用戶可以自定義訪問網(wǎng)站和審批策略。
- XX支持哪些功能?:XX支持協(xié)作規(guī)劃、協(xié)作執(zhí)行、安全機制和學習復用等多種功能,幫助用戶完成復雜的Web任務。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...