蘋果發布多模態模型 Ferret-UI，部分手機 UI 任務超越 GPT-4V

AIGC動態2年前 (2024)發布 AI科技評論

AIGC動態歡迎閱讀

原標題：蘋果發布多模態模型 Ferret-UI，部分手機 UI 任務超越 GPT-4V
關鍵字：模型,任務,圖像,文本,屏幕
文章來源：AI科技評論
內容字數：5711字

內容摘要：

手機廠商自研的端側模型功能，會超越純正的大模型團隊嗎？編譯 | 賴文昕
編輯 | 陳彩嫻
大模型的誕生，讓科技巨頭與創業公司們在新一輪的競賽中再次鳴槍出發，OpenAI、Anthropic、Mistral等創業之星的升起更是證明了在新技術的影響下，大廠并不存在絕對的優勢。
不久前，蘋果叫停了啟動十多年且投入數十億美元的自動駕駛電動汽車項目，美國總部裁員了600多人，另有近2000名員工轉到AI部門。
然而，在目前市場上的主流智能手機品牌中，蘋果幾乎是唯一一家尚未正式推出大模型的廠商。長期處在領頭羊地位的蘋果，似乎在大模型這一局中罕見地落后了。
4月8日，蘋果發表了一個名為“Ferret-UI”的新工作，這是一個能“看懂”手機屏幕上并能執行任務的多模態模型，專為增強對移動端 UI 屏幕的理解而定制，配備了引用（referring）、定位（grounding）和推理（reasoning）功能。
論文鏈接：https://arxiv.org/pdf/2404.05719.pdf
半年前，蘋果和哥倫比亞大學研究團隊聯合發布的多模態大模型“Ferret”就已具有較高的圖文關聯能力，而“Ferre

原文鏈接：蘋果發布多模態模型 Ferret-UI，部分手機 UI 任務超越 GPT-4V