AIGC動態歡迎閱讀
原標題:一秒偵破大模型“高分低能”:賈佳亞團隊聯手劍橋清華等共推評測新范式
關鍵字:模型,余數,步驟,華為,字節跳動
文章來源:AI前線
內容字數:0字
內容摘要:
作者 | MR-Ben 團隊
顛覆過往大模型評測標準,最新、最全、最權威的測評數據集 MR-Ben 來了!
這是繼今年 4 月發布堪稱 GPT-4 + DALL- E-3 的王炸產品超強視覺語言模型 Mini-Gemini 后,港中文賈佳亞團隊再次提出的極具代表性的作品。在 MR-Ben 的“監督”下,大模型不僅要像學生那樣會答題,還要像老師那樣會閱卷,真實的推理能力無所遁形。
MR-Ben 細致地評測了不少國內外一線的開源和閉源模型,如 GPT4-Turbo、Cluade3.5-Sonnet、Mistral-Large、Zhipu-GLM4、Moonshot-v1、Yi-Large、Qwen2-70B、Deepseek-V2 等,并進行了詳盡的分析。
哪些看似美麗的大模型會被“卸妝”,哪個模型地表最強?目前該工作所有代碼和數據均已開源,一起來看看!
Project Page: https://randolph-zeng.github.io/Mr-Ben.github.io/
Arxiv Page: https://arxiv.org/abs/2406.13975
Github Re
原文鏈接:一秒偵破大模型“高分低能”:賈佳亞團隊聯手劍橋清華等共推評測新范式
聯系作者
文章來源:AI前線
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...