「世界開源新王」跌落神壇?重測(cè)跑分暴跌實(shí)錘造假,2人團(tuán)隊(duì)光速「滑跪」
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:「世界開源新王」跌落神壇?重測(cè)跑分暴跌實(shí)錘造假,2人團(tuán)隊(duì)光速「滑跪」
關(guān)鍵字:報(bào)告,模型,基準(zhǔn),測(cè)試,數(shù)據(jù)
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:Aeneas 好困
【新智元導(dǎo)讀】「世界開源新王」Reflection 70B,才坐上王座沒幾天就被打假,跌落神壇了!甚至有人質(zhì)疑,它莫不是套殼的Sonnet 3.5?發(fā)布者M(jìn)att Shumer和Sahil Chaudhary經(jīng)過一番掙扎,已經(jīng)光速「滑跪」,po出的復(fù)盤長(zhǎng)文也是亮點(diǎn)滿滿。「開源新王」Reflection 70B,才發(fā)布一個(gè)月就跌落神壇了?
9月5日,Hyperwrite AI聯(lián)創(chuàng)兼CEO Matt Shumer在X上扔出一則性消息——
用Meta的開源Llama 3.1-70B,團(tuán)隊(duì)微調(diào)出了Reflection 70B。它的基準(zhǔn)測(cè)試結(jié)果驚人,可以和Claude 3.5 Sonnet以及GPT-4這類頂級(jí)閉源模型一較高下,直接登頂「世界開源新王」!
結(jié)果沒多久,Reflection 70B就被打假了:公布的基準(zhǔn)測(cè)試結(jié)果和他們的測(cè)試之間存在顯著差異。
無論是AI研究者,還是第三方評(píng)估者,都無法復(fù)現(xiàn)Matt Shumer所聲稱的結(jié)果。
根據(jù)Artificial Analysis的數(shù)據(jù),Reflection 70B在基準(zhǔn)測(cè)試中的表現(xiàn),竟然還不如原始版
原文鏈接:「世界開源新王」跌落神壇?重測(cè)跑分暴跌實(shí)錘造假,2人團(tuán)隊(duì)光速「滑跪」
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡(jiǎn)介: