“最強(qiáng)開(kāi)源模型”被打假,CEO下場(chǎng)致歉,英偉達(dá)科學(xué)家:現(xiàn)有測(cè)試基準(zhǔn)已經(jīng)不靠譜了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:“最強(qiáng)開(kāi)源模型”被打假,CEO下場(chǎng)致歉,英偉達(dá)科學(xué)家:現(xiàn)有測(cè)試基準(zhǔn)已經(jīng)不靠譜了
關(guān)鍵字:報(bào)告,模型,表示,成績(jī),測(cè)試
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI小型創(chuàng)業(yè)團(tuán)隊(duì)打造的“最強(qiáng)開(kāi)源模型”,發(fā)布才一周就被質(zhì)疑造假——
不僅官方宣稱的成績(jī)?cè)诘谌綔y(cè)試中大打折扣,模型還被質(zhì)疑套殼Claude。
面對(duì)浩大的聲浪,廠商CEO終于發(fā)文道歉,但并未承認(rèn)造假,表示在調(diào)查有關(guān)原因。
被指控造假的,就是宣稱“干翻GPT-4o”的70B開(kāi)源大模型Reflection。
一開(kāi)始的質(zhì)疑主要關(guān)于測(cè)試成績(jī),官方找了上傳版本有誤等借口試圖“蒙混過(guò)關(guān)”。
但后來(lái)又出現(xiàn)了套殼Claude這一更重磅的指控,讓Reflection更加百口莫辯。
表現(xiàn)不如宣傳,還被質(zhì)疑套殼Reflection是一個(gè)70B的開(kāi)源模型,按照廠商的說(shuō)法,它一下子把Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro這一系列先進(jìn)模型全都超過(guò)了。
但Reflection剛發(fā)布兩天,第三方測(cè)評(píng)機(jī)構(gòu)Artificial Analysis就表示官方發(fā)布的測(cè)試成績(jī)無(wú)法復(fù)現(xiàn)。
在MMLU、GPQA和MATH上,Reflection的成績(jī)和Llama3 70B一樣,連Llama 3.1-70B都比不過(guò),更不用說(shuō)
原文鏈接:“最強(qiáng)開(kāi)源模型”被打假,CEO下場(chǎng)致歉,英偉達(dá)科學(xué)家:現(xiàn)有測(cè)試基準(zhǔn)已經(jīng)不靠譜了
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: