谷歌Gemini扳回一局！多模態(tài)能力和GPT-4V不分伯仲｜港中文128頁全面測評報告

AIGC動態(tài)2年前 (2023)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標題：谷歌Gemini扳回一局！多模態(tài)能力和GPT-4V不分伯仲｜港中文128頁全面測評報告
關(guān)鍵字：報告,能力,模型,任務(wù),視覺
文章來源：量子位
內(nèi)容字數(shù)：7085字

內(nèi)容摘要：

happy投稿量子位 | 公眾號 QbitAI谷歌扳回一局！
在Gemini開放API不到一周的時間，港中文等機構(gòu)就完成評測，聯(lián)合發(fā)布了多達128頁的報告，結(jié)果顯示：
在37個視覺理解任務(wù)上，Gemini-Pro表現(xiàn)出了和GPT-4V相當?shù)哪芰Α?br />在多模態(tài)專有基準MME上，Gemini-Pro的感知和認知綜合表現(xiàn)則直接獲得了1933.4的高分，超越GPT-4V（1926.6）。
此前，CMU測評發(fā)現(xiàn)Gemini-Pro的綜合能力居然和GPT-3.5差不多。
現(xiàn)在，在多模態(tài)這個一大主推的賣點上，Gemini-Pro可算是扳回一局。
那么具體如何？
測評報告一共128頁，咱們就挑重點來看。
Gemini-Pro的首份多模態(tài)能力報告來了這份測評主要是對Gemini-Pro的視覺理解能力進行評估。
一共涵蓋基礎(chǔ)感知、高級認知、挑戰(zhàn)性視覺任務(wù)和各種專家能力四大領(lǐng)域，在37個細分任務(wù)項上進行定性比較。
定量評估則在專為多模態(tài)大語言模型專門設(shè)計的評測基準MME上展開。
首先來看定量測試結(jié)果。
MME上綜合表現(xiàn)比GPT-4V強MME基準包含兩大類任務(wù)。
一個是感知，涵蓋目標存在性判斷、物體計數(shù)、位置關(guān)

原文鏈接：谷歌Gemini扳回一局！多模態(tài)能力和GPT-4V不分伯仲｜港中文128頁全面測評報告