Mistral多模態大模型來了！120億參數，原生支持任意大小/數量圖像，公司估值已達420億

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：Mistral多模態大模型來了！120億參數，原生支持任意大小/數量圖像，公司估值已達420億
關鍵字：模型,視覺,編碼器,微軟,大小
文章來源：量子位
內容字數：0字

內容摘要：

明敏發自凹非寺量子位 | 公眾號 QbitAIMistral的多模態大模型來了！
Pixtral 12B正式發布，同時具備語言和視覺處理能力。
它建立在文本模型Nemo 12B基礎上，包含一個專門的視覺編碼器。
大概24GB，原生支持任意數量和尺寸的圖像，大約有40層神經網絡、14,336 個隱藏維度大小和32個注意力頭，以及一個專用的視覺編碼器，支持高分辨率圖像（1024×1024）處理。
發布形式還是簡單直接一個種子鏈接。
現在可以通過鏈接、GitHub或Hugging Face下載模型。
Mistral的開發主管表示，后續也會在Chatbot上接入模型，并提供API服務。
超越Qwen、LLaVA等雖然目前模型的訓練數據、細節都未公開，但是通過模型代碼網友們發現了更多細節。
1、先進架構：40層網絡、14336隱藏維度大小、32個注意力頭。
2、視覺能力：專用視覺編碼器，支持1024×1024圖像大小和24個隱藏層，用于高級圖像處理。
3、更大詞匯量：131072tokens，支持更細致語言理解和生成。
4、使用GeLU(用于視覺適配器)和2D RoPE(用于視覺編碼器)。

原文鏈接：Mistral多模態大模型來了！120億參數，原生支持任意大小/數量圖像，公司估值已達420億