梗圖理解“天花板”!港中文終身教授賈佳亞團(tuán)隊(duì)推出多模態(tài)模型:GPT-4+DALL-E 3,王炸組合刷爆榜單
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:梗圖理解“天花板”!港中文終身教授賈佳亞團(tuán)隊(duì)推出多模態(tài)模型:GPT-4+DALL-E 3,王炸組合刷爆榜單
關(guān)鍵字:字節(jié)跳動(dòng),小米,報(bào)告,模型,圖像
文章來(lái)源:AI前線
內(nèi)容字?jǐn)?shù):5373字
內(nèi)容摘要:
整理 | 傅宇琪
近日,港中文終身教授賈佳亞團(tuán)隊(duì)推出了一款名為 Mini-Gemini 的多模態(tài)模型,包括 2B 小杯到 34B 的超大杯,一經(jīng)發(fā)布便登上了 PaperWithCode 熱榜。憑借超強(qiáng)的圖文理解力,Mini-Gemini 的最強(qiáng)模型版本在多個(gè)指標(biāo)上,直接媲美 Gemini Pro,GPT-4V,網(wǎng)友稱其效果堪稱是開(kāi)源社區(qū)的 GPT4+DALL-E 3 的王炸組合!
目前,研究團(tuán)隊(duì)將 Mini-Gemini 的代碼、模型、數(shù)據(jù)全部開(kāi)源。更有意思的是,超會(huì)玩梗的 Mini-Gemini 線上 Demo 已經(jīng)發(fā)布,人人皆可上手試玩?!皽\嘗”之后,有人認(rèn)為:Mini-Gemini 跟商業(yè)模型差不了多少!最“懂”圖的大模型?圖像理解及推理當(dāng)下,絕大多數(shù)多模態(tài)模型僅支持低分辨率圖像輸入和文字輸出。而在實(shí)際場(chǎng)景中,許多任務(wù)都需要對(duì)高清圖像進(jìn)行解析,并用圖像的形式進(jìn)行展現(xiàn)。Mini-Gemini 在這一點(diǎn)上有著不錯(cuò)的表現(xiàn):
給它一張做面包的九宮格漫畫(huà)教程,Mini-Gemini 能看懂并進(jìn)行手把手教學(xué)。
拍一張?zhí)O果店 Mac 電腦信息圖,Mini-Gemini 能夠?qū)煞N Mac 的參
原文鏈接:梗圖理解“天花板”!港中文終身教授賈佳亞團(tuán)隊(duì)推出多模態(tài)模型:GPT-4+DALL-E 3,王炸組合刷爆榜單
聯(lián)系作者
文章來(lái)源:AI前線
作者微信:ai-front
作者簡(jiǎn)介:面向AI愛(ài)好者、開(kāi)發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例,助你全面擁抱AIGC。