AIGC動態歡迎閱讀
原標題:今日arXiv最熱NLP大模型論文:像人一樣瀏覽網頁執行任務,騰訊AI lab發布多模態端到端Agent
關鍵字:解讀,任務,報告,騰訊,網站
文章來源:夕小瑤科技說
內容字數:10123字
內容摘要:
?夕小瑤科技說 原創作者 | 謝年年Agent的發展成為了LLM發展的一個熱點。只需通過簡單指令,Agent幫你完成從輸入內容、瀏覽網頁、選擇事項、點擊、返回等一系列需要執行多步,才能完成的與網頁交互的復雜任務。
比如給定任務:“搜索Apple商店,了解iPad智能保護殼Smart Folio的配件, 并查看最近的自提點位置 (郵政編碼90038)。”
下圖演示Agent如何按照在線方式逐步與Apple網站進行交互,完成任務。在最后的屏幕截圖中,Agent獲取了所需的信息,然后選擇”ANSWER”動作進行回應和導航的結束。
▲在線網絡瀏覽完整軌跡的屏幕截圖Agent與Apple網站進行交互, 并獲得答案:“Apple Valley Fair。”
然而,現有的Agent通常用于處理復雜且冗長的HTML文本這一單一輸入模態,而忽視了可以將HTML渲染為視覺網頁這一要點,并且僅在簡化的網絡模擬器或靜態網絡快照中進行評估,很大程度上限制了Agent在現實世界場景中的適用性。
騰訊AI lab提出了一種新的多模態網絡Agent——WebVoyager,旨在以端到端的方式在線處理網絡任務,即在沒有
原文鏈接:今日arXiv最熱NLP大模型論文:像人一樣瀏覽網頁執行任務,騰訊AI lab發布多模態端到端Agent
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI一線開發者、互聯網中高管和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備行業嗅覺與報道深度。