UNO-Bench

UNO-Bench – 美團LongCat推出的全模態大模型評測基準

UNO-Bench：革新全模態大模型評測的標桿之作

在人工智能飛速發展的浪潮中，全模態大模型正以前所未有的姿態改變著我們與技術的互動方式。然而，現有的評測體系在衡量這些復雜模型的能力時，往往顯得力不從心。針對這一痛點，美團LongCat團隊傾力打造了UNO-Bench——一個旨在提供更全面、更精準評估的全模態大模型評測基準。

UNO-Bench 的核心價值

UNO-Bench 不僅僅是一個評測工具，它更是一個深刻洞察全模態大模型能力構成的新視角。通過精心構建的、兼具高質量與多樣性的數據集，UNO-Bench 能夠精準地捕捉模型在單一模態（如圖像、音頻、視頻、文本）以及跨模態融合任務上的表現。尤為值得一提的是，UNO-Bench 首次成功驗證了全模態大模型所遵循的“組合定律”，深刻揭示了單模態能力與全模態能力之間錯綜復雜的關系。此外，UNO-Bench 引入了創新的多步開放式問題（MO）和高效的數據壓縮算法，極大地提升了評測的區分度和效率，為推動全模態大模型技術的進步提供了堅實的科學評估基礎。

UNO-Bench 的關鍵功能亮點

深度洞察模型潛能：借助海量高質量、多樣化的數據集，UNO-Bench 全面審視模型在圖像、音頻、視頻及文本等單模態任務上的表現，并深入評估其在整合多模態信息時的綜合實力。
揭示能力協同機制：UNO-Bench 率先揭示了全模態大模型的“組合定律”，揭示了單模態能力與全模態能力之間并非簡單的線性疊加，而是存在著更深層次的協同關系，為模型的設計與優化提供了寶貴的理論指導。
革新性評測范式：UNO-Bench 獨創的多步開放式問題（MO）設計，能夠有效檢測模型在處理復雜推理任務時的能力衰減情況，從而精準地區分模型在推理深度上的差異。
優化評測效率：通過運用聚類引導的分層抽樣技術，UNO-Bench 在顯著降低評測成本的同時，依然能保持模型排名的穩定性和高度一致性。
賦能多模態研究前沿：UNO-Bench 為廣大研究者提供了一個統一、標準的評測框架，有力地推動了全模態大模型領域的研究進展，為孕育更強大的下一代模型奠定了堅實基礎。

UNO-Bench 的技術基石

統一的能力維度：UNO-Bench 將模型的能力體系劃分為感知層與推理層。感知層涵蓋了基礎識別、跨模態對齊等能力，而推理層則深入到空間推理、時序推理等高階任務。這種雙維度的框架為數據的構建和模型的評測提供了清晰的指導藍圖。
精益求精的數據構建：
- 嚴謹的數據采集與標注：通過細致的人工標注和多輪嚴格的質檢，UNO-Bench 確保了數據集的高質量與豐富性。值得注意的是，超過90%的數據為原創私有化內容，有效規避了數據污染的風險。
- 確保跨模態的必要性：通過精心設計的模態消融實驗，UNO-Bench 確保了98%以上的問題必須依賴多模態信息才能得到解答，從而杜絕了單模態信息冗余的可能性。
- 視聽分離的巧妙融合：UNO-Bench 設計音頻內容，并將其與視覺素材進行人工組合，這種方式打破了信息冗余的壁壘，迫使模型真正地進行跨模態的信息融合。
- 智能數據優化與壓縮：采用聚類引導的分層抽樣方法，UNO-Bench 能夠從海量數據中篩選出最具代表性的樣本，從而有效降低評測成本，同時保障了模型排名的穩定性。
創新性的評測方：UNO-Bench 將復雜的推理任務分解為一系列子問題，并要求模型提供開放式的文本答案。通過專家加權評分機制，能夠精準地評估模型的推理能力。通過對問題類型的細分以及多輪標注的迭代優化，UNO-Bench 實現了對多種問題類型的自動評分，其準確率高達95%。
“組合定律”的嚴謹驗證：通過回歸分析和消融實驗，UNO-Bench 揭示了全模態性能并非簡單地由單模態能力線性疊加而成，而是遵循著冪律協同的規律。這種非線性的關系為評估模型融合效率提供了全新的分析視角。

UNO-Bench 的可及之處

項目官網：https://meituan-longcat.github.io/UNO-Bench/
GitHub 倉庫：https://github.com/meituan-longcat/UNO-Bench
HuggingFace 模型庫：https://huggingface.co/datasets/meituan-longcat/UNO-Bench
arXiv 技術論文：https://arxiv.org/pdf/2510.18915

UNO-Bench 的廣泛應用前景

驅動模型研發與精進：UNO-Bench 為模型開發者提供了一套標準化的評測工具，能夠有效助力模型架構的優化，并顯著提升其多模態融合能力。
賦能行業應用落地：在智能客服、自動駕駛等諸多領域，UNO-Bench 可以被用于評估模型在復雜多模態交互場景下的表現，從而優化用戶體驗，提升服務質量。
推動學術研究與競賽創新：作為一項權威的學術評測基準，UNO-Bench 為模型性能的橫向比較和多模態領域的競賽提供了堅實的基礎，有力地促進了技術的前沿突破。
支撐產品開發與市場洞察：UNO-Bench 能夠幫助企業科學地評估其多模態產品的功能表現與市場競爭力，為相關產品的研發提供有力的決策支持。
加速跨模態應用開發進程：在多媒體內容創作、智能安防等領域，UNO-Bench 的應用能夠顯著提升多模態應用的性能和可靠性，推動相關產業的創新發展。

閱讀原文