AIGC動態歡迎閱讀
原標題:世界頂尖多模態大模型開源!又是零一萬物,又是李開復
關鍵字:模型,圖像,語言,文本,能力
文章來源:量子位
內容字數:3990字
內容摘要:
允中 發自 凹非寺量子位 | 公眾號 QbitAI領跑中英文兩大權威榜單,李開復零一萬物交出多模態大模型答卷!
距離其首款開源大模型Yi-34B和Yi-6B的發布,僅間隔不到三個月的時間。
模型名為Yi Vision Language(Yi-VL),現已正式面向全球開源。
同屬Yi系列,同樣具有兩個版本:
Yi-VL-34B和Yi-VL-6B。
先來看兩個例子,感受一波Yi-VL在圖文對話等多元場景中的表現:
Yi-VL對整幅圖做了詳細分析,不僅說明了指示牌上的內容,甚至連“天花板”都有照顧到。
中文方面,Yi-VL也能清晰有條理地準確表達:
此外,官方也給出了測試結果。
Yi-VL-34B在英文數據集MMMU上準確率41.6%,僅次于準確率55.7%的GPT-4V,超越一系列多模態大模型。
而在中文數據集CMMMU上,Yi-VL-34B準確率36.5%,領先于當前最前沿的開源多模態模型。
Yi-VL長啥樣?Yi-VL基于Yi語言模型研發,可以看到基于Yi語言模型的強大文本理解能力,只需對圖片進行對齊,就可以得到不錯的多模態視覺語言模型——這也是Yi-VL模型的核心亮點之一。
在架構設
原文鏈接:世界頂尖多模態大模型開源!又是零一萬物,又是李開復
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...