Ovis1.6

Ovis1.6是一款由阿里國際AI團隊開發的多模態大模型，在多模態權威評測基準OpenCompass上展現了卓越的性能，尤其是在參數數量不超過30億的模型中，綜合得分位列第一，超越了眾多主流競爭對手。Ovis1.6在數學推理、視覺理解等多項任務中表現優異，甚至超過了閉源的GPT-4o-mini模型。該模型能夠處理文本與圖像等多種數據輸入，具備出色的視覺感知推理、科學問題解答及生活場景理解能力。

Ovis1.6是什么

Ovis1.6是阿里國際AI團隊推出的一款領先的多模態大模型，憑借其在多模態評測基準OpenCompass上的優異成績脫穎而出，尤其在30億參數以下的模型中，綜合得分名列第一。它在數學推理、視覺理解等多個領域展現了卓越的能力，甚至在某些任務上超過了閉源的GPT-4o-mini。Ovis1.6可以處理文本和圖像等多種輸入數據，具備強大的視覺感知、科學問題解答以及日常場景理解能力。

Ovis1.6

Ovis1.6的主要功能

數學推理問答：能夠精準解答各種數學問題，包括復雜的公式和邏輯推理。
物體識別：具備識別多種物體的能力，如不同花卉品種，展現其在圖像識別方面的優勢。
文本提取：支持多語言的文本提取，能夠從各種文檔中識別并提取信息。
復雜任務決策：能夠處理多種類型的數據輸入，進行復雜的決策任務，例如綜合分析圖像和文本。
圖像理解：在圖像理解方面達到SOTA（State of the Art）水平，能夠處理高分辨率和極端長寬比的圖像。

Ovis1.6的技術原理

創新架構設計：Ovis1.6基于視覺tokenizer與視覺嵌入表結合大語言模型的架構，采用可學習的視覺嵌入表，將視覺特征轉化為概率化的視覺token，經過多次加權索引生成結構化的視覺嵌入，從而提升多模態任務的表現。
高分圖像處理：Ovis1.6支持處理極端長寬比的圖像，并兼容高分辨率圖像，展現出色的圖像理解能力。
全面數據優化：在訓練過程中，Ovis1.6使用多種數據集，如Caption、VQA、OCR、Table和Chart等，全面的數據覆蓋顯著提升了其在多模態問答和指令跟隨等任務上的表現。
卓越模型性能：在OpenCompass的多模態評測中，Ovis1.6-Gemma2-9B在30B參數模型中綜合排名第一，展現出色的性能。