Kimi-VL – 月之暗面開源的輕量級(jí)多模態(tài)視覺語言模型
Kimi-VL 是一個(gè)開源的輕量級(jí)多模態(tài)視覺語言模型,由月之暗面團(tuán)隊(duì)開發(fā)。該模型采用 Mixture-of-Experts (MoE) 架構(gòu),擁有總計(jì) 16 億個(gè)參數(shù),而推理時(shí)僅需激活 2.8 億個(gè)參數(shù)。Kimi-VL 能夠進(jìn)行強(qiáng)大的多模態(tài)推理、長(zhǎng)文本理解及智能體(agent)互動(dòng),并支持高達(dá) 128K 的擴(kuò)展上下文窗口和高分辨率的視覺輸入。在數(shù)學(xué)推理和長(zhǎng)視頻理解等任務(wù)上,Kimi-VL 的表現(xiàn)超越了 GPT-4o 等同類模型。此外,Kimi-VL 還推出了推理增強(qiáng)版 Kimi-VL-Thinking,進(jìn)一步提升其長(zhǎng)期推理能力。
Kimi-VL是什么
Kimi-VL 是月之暗面開發(fā)的一款輕量級(jí)多模態(tài)視覺語言模型,基于 Mixture-of-Experts (MoE) 架構(gòu),擁有總計(jì) 16 億個(gè)參數(shù)。在推理過程中,僅激活 2.8 億個(gè)參數(shù),從而顯著降低計(jì)算成本。該模型在多模態(tài)推理、長(zhǎng)文本理解及智能體交互等方面表現(xiàn)出色,能夠處理復(fù)雜的多模態(tài)任務(wù)。Kimi-VL 在數(shù)學(xué)推理和長(zhǎng)視頻理解領(lǐng)域的表現(xiàn)尤為突出,領(lǐng)先于諸如 GPT-4o 等其他模型。為了進(jìn)一步提升推理能力,Kimi-VL 還推出了基于長(zhǎng)鏈推理微調(diào)和強(qiáng)化學(xué)習(xí)的增強(qiáng)版 Kimi-VL-Thinking。
Kimi-VL的主要功能
- 多模態(tài)推理:能夠處理圖像、視頻及文本等多種輸入形式,滿足復(fù)雜的多模態(tài)任務(wù)需求。
- 長(zhǎng)文本理解:配備 128K 擴(kuò)展上下文窗口,擅長(zhǎng)處理長(zhǎng)視頻及長(zhǎng)文檔輸入。
- 數(shù)學(xué)推理:利用長(zhǎng)鏈推理(CoT)監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)(RL),具備出色的數(shù)學(xué)推理能力。
- Agent 交互能力:支持多輪對(duì)話及復(fù)雜任務(wù)的逐步推理能力。
- 高分辨率視覺輸入:能夠處理超高分辨率的視覺輸入,同時(shí)保持較低的計(jì)算成本。
Kimi-VL的技術(shù)原理
- 基礎(chǔ)架構(gòu):采用 MoE 架構(gòu),在推理時(shí)僅激活部分參數(shù)(2.8B),有效降低計(jì)算負(fù)擔(dān)。該模型基于 SigLIP-SO-400M 進(jìn)行微調(diào),能夠處理高分辨率視覺輸入。多層感知機(jī)(MLP)投影器將視覺特征與語言特征對(duì)齊,增強(qiáng)多模態(tài)融合效果。
- 預(yù)訓(xùn)練階段:
- ViT 訓(xùn)練:為視覺編碼器進(jìn)行訓(xùn)練,建立穩(wěn)健的視覺特征提取能力。
- 聯(lián)合訓(xùn)練:包括預(yù)訓(xùn)練、冷卻和長(zhǎng)上下文激活三個(gè)階段,全面提升模型的語言與多模態(tài)能力。
- 后訓(xùn)練階段:在 32K 和 128K 上下文中進(jìn)行聯(lián)合微調(diào),進(jìn)一步增強(qiáng)模型的多模態(tài)理解能力,基于長(zhǎng)鏈推理任務(wù)進(jìn)行微調(diào),以提升模型的長(zhǎng)期推理能力。
- 強(qiáng)化學(xué)習(xí)(RL):對(duì)模型推理能力進(jìn)行進(jìn)一步優(yōu)化,使其在復(fù)雜任務(wù)中表現(xiàn)更為出色。
Kimi-VL的項(xiàng)目地址
- GitHub倉(cāng)庫(kù):https://github.com/MoonshotAI/Kimi-VL
- HuggingFace模型庫(kù):https://huggingface.co/collections/moonshotai/kimi-vl
- 技術(shù)論文:https://github.com/MoonshotAI/Kimi-VL/blob/main/Kimi-VL.pdf
Kimi-VL的應(yīng)用場(chǎng)景
- 智能客服:用于多輪對(duì)話,解答用戶問題,并支持圖文結(jié)合的互動(dòng)。
- 教育輔導(dǎo):幫助學(xué)生學(xué)習(xí),提供圖文并茂的解答和教學(xué)材料。
- 內(nèi)容創(chuàng)作:生成圖文和視頻內(nèi)容,輔助視頻編輯與創(chuàng)意生成。
- 醫(yī)療輔助:分析醫(yī)學(xué)影像,提供初步診斷建議及健康咨詢。
- 企業(yè)辦公:處理長(zhǎng)文檔,提取關(guān)鍵信息,支持智能會(huì)議服務(wù)。
常見問題
- Kimi-VL支持哪些輸入類型? Kimi-VL 支持圖像、視頻和文本等多種輸入形式。
- 它的推理能力如何? Kimi-VL 在復(fù)雜任務(wù)中表現(xiàn)優(yōu)異,尤其是在數(shù)學(xué)推理和長(zhǎng)文本理解方面。
- 如何獲取 Kimi-VL 的最新版本? 用戶可以訪問其官方 GitHub 倉(cāng)庫(kù)和 HuggingFace 模型庫(kù)獲取最新版本。
- Kimi-VL 的應(yīng)用場(chǎng)景有哪些? Kimi-VL 可廣泛應(yīng)用于智能客服、教育輔導(dǎo)、內(nèi)容創(chuàng)作、醫(yī)療輔助和企業(yè)辦公等領(lǐng)域。