標簽:基準

自動化、可復現,基于大語言模型群體智能的多維評估基準Decentralized Arena來了

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

最強小模型又易主!Mistral發布小部長Ministral 3B、8B,邊緣計算之王!

夕小瑤科技說 原創作者 | 付奶茶家人們,就在今天,Mistral 7B發布一周年之際,小模型的寶座又易主了! Mistral研究團隊發布了兩款新的邊緣計算小模型:Minis...
閱讀原文

英偉達開源最新大模型Nemotron 70B后,只有OpenAI o1一個對手了

機器之心報道 編輯:杜偉、陳陳英偉達不僅要做顯卡領域的領先者,還要在大模型領域逐漸建立起自己的優勢。今天,英偉達又開源了一個性能超級強大的模型 —— Ll...
閱讀原文

TPAMI | 安全強化學習方法、理論與應用綜述,慕工大、同濟、伯克利等深度解析

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

Jim Fan再談基準測試之弊!Hugging Face開源套件LightEval領跑LLM評估新篇章

新智元報道編輯:Mindy 【新智元導讀】HuggingFace推出LightEval,為AI評估帶來透明度和定制化,開啟AI模型評估的新時代。在AI的世界里,模型的評估往往被看...
閱讀原文

「世界開源新王」跌落神壇?重測跑分暴跌實錘造假,2人團隊光速「滑跪」

新智元報道編輯:Aeneas 好困 【新智元導讀】「世界開源新王」Reflection 70B,才坐上王座沒幾天就被打假,跌落神壇了!甚至有人質疑,它莫不是套殼的Sonnet ...
閱讀原文

號稱擊敗Claude 3.5 Sonnet,媲美GPT-4o,開源多模態模型Molmo挑戰Scaling law

機器之心報道 編輯:佳琪、PandaMolmo,開源多模態模型正在發力!雖然大家一直在期待谷歌、OpenAI 等等擁有無限資金儲備和頂尖人才的大廠做出新的 Sota 模型...
閱讀原文

AI科學家太多,誰靠譜一試便知!普林斯頓新基準CORE-Bench:最強模型僅有21%準確率

新智元報道編輯:LRS 【新智元導讀】普林斯頓大學新發布的CORE-Bench基準測試,通過270個基于90篇跨學科科學論文的任務,可評估AI智能體在計算可重復性方面的...
閱讀原文

抵擋AI的最后一個基準!CAIS發布50萬美元懸賞令:匯集人類頂尖專家,專攻高難度問題

新智元報道編輯:LRS 【新智元導讀】隨著AI模型的水平不斷提高,現有的基準測試也被逐一攻破。CAIS和Scale AI共同發起了屬于人類的最后一搏,懸賞50萬美元,...
閱讀原文

阿里史上最大規模開源發布,超GPT-4o 、Llama-3.1!

文章轉載自公眾號:AIGC開放社區,本文只做學術/技術分享,如有侵權,聯系刪文。 今天凌晨,阿里巴巴官宣了史上最大規模的開源發布,推出了基礎模型Qwen2.5、...
閱讀原文

MMMU華人團隊更新Pro版!多模態基準升至史詩級難度:過濾純文本問題、引入純視覺問答

新智元報道編輯:LRS 【新智元導讀】MMMU-Pro通過三步構建過程(篩選問題、增加候選選項、引入純視覺輸入設置)更嚴格地評估模型的多模態理解能力;模型在新...
閱讀原文

AI突破性進展,OpenAI GPT o1 原理與安全最新研究報告(80頁)

“歐米伽未來研究所”關注科技未來發展趨勢,研究人類向歐米伽點演化過程中面臨的重大機遇與挑戰。將不定期推薦和發布世界范圍重要科技研究進展。(關于歐米伽...
閱讀原文

OpenAI o1模型問世,五級AGI再突破!推理極限超博士,清北復旦華人立功

新智元報道編輯:編輯部 【新智元導讀】OpenAI的「草莓」——o1系列模型,居然迅雷不及掩耳地上線了!在復雜推理、數學和代碼問題上,它又提升到了全新高度,可...
閱讀原文

剛剛,OpenAI震撼發布o1大模型!強化學習突破LLM推理極限

機器之心報道 機器之心編輯部大模型領域的技術發展,今天起再次「從 1 開始」了。 大語言模型還能向上突破,OpenAI 再次證明了自己的實力。 北京時間 9 月 13...
閱讀原文

歐洲名將 Mistral 發布首個多模態模型,12B 開源下載,黃仁勛站臺

法國 AI 初創 Mistral AI,又扔出一條磁力鏈炸場了。 這次,與以往不同的是,他們發布了首個多模態模型 Pixtral 12B,集語言、視覺能力于一身。 這意味著,Mi...
閱讀原文
123412