Mistral多模態(tài)大模型來(lái)了!120億參數(shù),原生支持任意大小/數(shù)量圖像,公司估值已達(dá)420億
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Mistral多模態(tài)大模型來(lái)了!120億參數(shù),原生支持任意大小/數(shù)量圖像,公司估值已達(dá)420億
關(guān)鍵字:模型,視覺(jué),編碼器,微軟,大小
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
明敏 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIMistral的多模態(tài)大模型來(lái)了!
Pixtral 12B正式發(fā)布,同時(shí)具備語(yǔ)言和視覺(jué)處理能力。
它建立在文本模型Nemo 12B基礎(chǔ)上,包含一個(gè)專(zhuān)門(mén)的視覺(jué)編碼器。
大概24GB,原生支持任意數(shù)量和尺寸的圖像,大約有40層神經(jīng)網(wǎng)絡(luò)、14,336 個(gè)隱藏維度大小和32個(gè)注意力頭,以及一個(gè)專(zhuān)用的視覺(jué)編碼器,支持高分辨率圖像(1024×1024)處理。
發(fā)布形式還是簡(jiǎn)單直接一個(gè)種子鏈接。
現(xiàn)在可以通過(guò)鏈接、GitHub或Hugging Face下載模型。
Mistral的開(kāi)發(fā)主管表示,后續(xù)也會(huì)在Chatbot上接入模型,并提供API服務(wù)。
超越Qwen、LLaVA等雖然目前模型的訓(xùn)練數(shù)據(jù)、細(xì)節(jié)都未公開(kāi),但是通過(guò)模型代碼網(wǎng)友們發(fā)現(xiàn)了更多細(xì)節(jié)。
1、先進(jìn)架構(gòu):40層網(wǎng)絡(luò)、14336隱藏維度大小、32個(gè)注意力頭。
2、視覺(jué)能力:專(zhuān)用視覺(jué)編碼器,支持1024×1024圖像大小和24個(gè)隱藏層,用于高級(jí)圖像處理。
3、更大詞匯量:131072tokens,支持更細(xì)致語(yǔ)言理解和 生成。
4、使用GeLU(用于視覺(jué)適配器)和2D RoPE(用于視覺(jué)編碼器)。
原文鏈接:Mistral多模態(tài)大模型來(lái)了!120億參數(shù),原生支持任意大小/數(shù)量圖像,公司估值已達(dá)420億
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: