產品名稱:DeepSeek-VL2
產品簡介:DeepSeek-VL2是DeepSeek最新開源的一系列大型混合專家(Mixture-of-Experts,簡稱MoE)視覺語言模型,在前代 DeepSeek-VL 的基礎上進行了顯著改進。DeepSeek-VL2 在多種任務上展現出卓越的能力,包括但不限于視覺問題回答、光學字符識別、文檔/表格/圖表理解以及視覺定位。
詳細介紹:
DeepSeek-VL2是什么
DeepSeek-VL2是DeepSeek最新開源的一系列大型混合專家(Mixture-of-Experts,簡稱MoE)視覺語言模型,在前代 DeepSeek-VL 的基礎上進行了顯著改進。DeepSeek-VL2 在多種任務上展現出卓越的能力,包括但不限于視覺問題回答、光學字符識別、文檔/表格/圖表理解以及視覺定位。模型系列包括三個版本:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,分別擁有 1.0B、2.8B 和 4.5B 的激活參數。DeepSeek-VL2 在保持相似或更少激活參數的情況下,與現有的開源密集型和基于 MoE 的模型相比,實現了競爭性或最先進的性能。模型于 2024 年 12 月 13 日正式發布。支持高達 1152×1152 的分辨率和 1:9 或 9:1 的極端長寬比,適配更多應用場景。DeepSeek-VL2 通過學習更多科研文檔數據,理解各種科研圖表的能力。能通過 Plot2Code 功能,根據圖像生成 Python 代碼。
DeepSeek-VL2的主要功能
- 動態分辨率支持:DeepSeek-VL2能處理高達1152×1152分辨率的圖像,支持1:9或9:1的極端長寬比,適配多種應用場景。
- 圖表理解:通過學習科研文檔數據,DeepSeek-VL2能輕松理解各種科研圖表。
- Plot2Code:模型具備圖像理解和代碼生成的能力,可以根據圖像生成Python代碼。
- 梗圖識別:DeepSeek-VL2能解析各種Meme(梗圖),擁有更深層次的理解能力。
- Visual Grounding:模型能進行零樣本(Zero-shot)視覺定位,根據自然語言描述在圖像中找到相應的物體。
- Visual Storytelling:DeepSeek-VL2能將多張圖像串聯起來,形成視覺故事。
DeepSeek-VL2的技術原理
- 多頭潛在注意力(MLA):DeepSeek-VL2 在注意力機制上采用了 MLA,基于低秩鍵值聯合壓縮來消除推理時鍵值緩存的瓶頸,支持高效的推理。
- DeepSeekMoE 架構:在前饋網絡(Feed-Forward Networks,FFNs)中,DeepSeek-VL2 采用了 DeepSeekMoE 架構,這是一種高性能的 MoE 架構,能在降低成本的同時訓練更強大的模型。
- 經濟高效的訓練和推理:DeepSeek-VL2 在預訓練階段使用了 8.1 萬億 token 的多樣化和高質量語料庫,通過監督式微調(Supervised Fine-Tuning,SFT)和強化學習(Reinforcement Learning,RL)來充分發揮模型的能力。與 DeepSeek 67B 相比,DeepSeek-VL2 在訓練成本上節省了 42.5%,減少了 93.3% 的 KV 緩存,將最大生成吞吐量提高了 5.76 倍。
- 支持長上下文窗口:DeepSeek-VL2 在?
Needle In A Haystack
(NIAH)測試中表現出色,支持長達 128K 的上下文窗口長度。
DeepSeek-VL2的項目地址
- Github倉庫:https://github.com/deepseek-ai/DeepSeek-VL2
- HuggingFace模型庫:https://huggingface.co/deepseek-ai/deepseek-vl2
DeepSeek-VL2的應用場景
- 機器人:通過 DeepSeek-VL2 的模型,可以實現與用戶的自然語言交互。
- 圖像描述:模型能根據圖像內容生成描述性文本。
- 代碼生成:DeepSeek-VL2 能根據用戶的需求生成代碼,適用在編程和軟件開發領域。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...