AIGC動態歡迎閱讀
原標題:「世界開源新王」跌落神壇?重測跑分暴跌實錘造假,2人團隊光速「滑跪」
關鍵字:報告,模型,基準,測試,數據
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:Aeneas 好困
【新智元導讀】「世界開源新王」Reflection 70B,才坐上王座沒幾天就被打假,跌落神壇了!甚至有人質疑,它莫不是套殼的Sonnet 3.5?發布者Matt Shumer和Sahil Chaudhary經過一番掙扎,已經光速「滑跪」,po出的復盤長文也是亮點滿滿。「開源新王」Reflection 70B,才發布一個月就跌落神壇了?
9月5日,Hyperwrite AI聯創兼CEO Matt Shumer在X上扔出一則性消息——
用Meta的開源Llama 3.1-70B,團隊微調出了Reflection 70B。它的基準測試結果驚人,可以和Claude 3.5 Sonnet以及GPT-4這類頂級閉源模型一較高下,直接登頂「世界開源新王」!
結果沒多久,Reflection 70B就被打假了:公布的基準測試結果和他們的測試之間存在顯著差異。
無論是AI研究者,還是第三方評估者,都無法復現Matt Shumer所聲稱的結果。
根據Artificial Analysis的數據,Reflection 70B在基準測試中的表現,竟然還不如原始版
原文鏈接:「世界開源新王」跌落神壇?重測跑分暴跌實錘造假,2人團隊光速「滑跪」
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...