“最強(qiáng)開源模型”被打假，CEO下場(chǎng)致歉，英偉達(dá)科學(xué)家：現(xiàn)有測(cè)試基準(zhǔn)已經(jīng)不靠譜了

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：“最強(qiáng)開源模型”被打假，CEO下場(chǎng)致歉，英偉達(dá)科學(xué)家：現(xiàn)有測(cè)試基準(zhǔn)已經(jīng)不靠譜了
關(guān)鍵字：報(bào)告,模型,表示,成績(jī),測(cè)試
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

克雷西發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI小型創(chuàng)業(yè)團(tuán)隊(duì)打造的“最強(qiáng)開源模型”，發(fā)布才一周就被質(zhì)疑造假——
不僅官方宣稱的成績(jī)?cè)诘谌綔y(cè)試中大打折扣，模型還被質(zhì)疑套殼Claude。
面對(duì)浩大的聲浪，廠商CEO終于發(fā)文道歉，但并未承認(rèn)造假，表示在調(diào)查有關(guān)原因。
被指控造假的，就是宣稱“干翻GPT-4o”的70B開源大模型Reflection。
一開始的質(zhì)疑主要關(guān)于測(cè)試成績(jī)，官方找了上傳版本有誤等借口試圖“蒙混過關(guān)”。
但后來又出現(xiàn)了套殼Claude這一更重磅的指控，讓Reflection更加百口莫辯。
表現(xiàn)不如宣傳，還被質(zhì)疑套殼Reflection是一個(gè)70B的開源模型，按照廠商的說法，它一下子把Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro這一系列先進(jìn)模型全都超過了。
但Reflection剛發(fā)布兩天，第三方測(cè)評(píng)機(jī)構(gòu)Artificial Analysis就表示官方發(fā)布的測(cè)試成績(jī)無法復(fù)現(xiàn)。
在MMLU、GPQA和MATH上，Reflection的成績(jī)和Llama3 70B一樣，連Llama 3.1-70B都比不過，更不用說

原文鏈接：“最強(qiáng)開源模型”被打假，CEO下場(chǎng)致歉，英偉達(dá)科學(xué)家：現(xiàn)有測(cè)試基準(zhǔn)已經(jīng)不靠譜了