馬斯克的首款多模態大模型來了，GPT-4V又被超越了一次

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：馬斯克的首款多模態大模型來了，GPT-4V又被超越了一次
關鍵字：模型,基準,世界,能力,人工智能
文章來源：機器之心
內容字數：8857字

內容摘要：

機器之心報道
機器之心編輯部自從 2023 年 11 月 Grok 首次亮相以來，馬斯克的 xAI 正在大模型領域不斷取得進步，向 OpenAI 等先行者發起進攻。在 Grok-1 開源后不到一個月，xAI 的首個多模態模型就問世了。
昨天，xAI 推出了 Grok-1.5V，該模型不僅能理解文本，還能處理文檔、圖表、截圖和照片中的內容。官方博文表示：「Grok-1.5V 在許多領域都能媲美當前頂尖的多模態模型，從多學科推理到理解文檔、科學圖表、圖表、截圖和照片。」 xAI 還表示，在接下來的幾個月里，預計將在圖像、音頻和視頻等各種模態上顯著提高模型能力。
我們看到了 Grok-1.5V 與 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的測試對比。其中特別提到的是：「Grok 在理解物理世界方面的能力尤其令我們興奮。在我們新推出的 RealWorldQA 基準測試中，Grok 的表現優于同類產品。對于下面的所有數據集，我們都是在沒有思維鏈提示的情況下對 Grok 進行評估的。」如果 Grok-1.5 能在類似于 Grok-1

原文鏈接：馬斯克的首款多模態大模型來了，GPT-4V又被超越了一次