AIGC動態歡迎閱讀
原標題:谷歌Gemini扳回一局!多模態能力和GPT-4V不分伯仲|港中文128頁全面測評報告
關鍵字:報告,能力,模型,任務,視覺
文章來源:量子位
內容字數:7085字
內容摘要:
happy投稿量子位 | 公眾號 QbitAI谷歌扳回一局!
在Gemini開放API不到一周的時間,港中文等機構就完成評測,聯合發布了多達128頁的報告,結果顯示:
在37個視覺理解任務上,Gemini-Pro表現出了和GPT-4V相當的能力。
在多模態專有基準MME上,Gemini-Pro的感知和認知綜合表現則直接獲得了1933.4的高分,超越GPT-4V(1926.6)。
此前,CMU測評發現Gemini-Pro的綜合能力居然和GPT-3.5差不多。
現在,在多模態這個一大主推的賣點上,Gemini-Pro可算是扳回一局。
那么具體如何?
測評報告一共128頁,咱們就挑重點來看。
Gemini-Pro的首份多模態能力報告來了這份測評主要是對Gemini-Pro的視覺理解能力進行評估。
一共涵蓋基礎感知、高級認知、挑戰性視覺任務和各種專家能力四大領域,在37個細分任務項上進行定性比較。
定量評估則在專為多模態大語言模型專門設計的評測基準MME上展開。
首先來看定量測試結果。
MME上綜合表現比GPT-4V強MME基準包含兩大類任務。
一個是感知,涵蓋目標存在性判斷、物體計數、位置關
原文鏈接:谷歌Gemini扳回一局!多模態能力和GPT-4V不分伯仲|港中文128頁全面測評報告
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...