最新!LeCun發(fā)起的LLM評測榜單中,這個大模型拿下中國第一
AIGC動態(tài)歡迎閱讀
原標(biāo)題:最新!LeCun發(fā)起的LLM評測榜單中,這個大模型拿下中國第一
關(guān)鍵字:模型,語言,指令,星辰,和數(shù)
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 分享國產(chǎn)大模型的“含金量”還在上升!
今日消息,國際權(quán)威榜單 LiveBench 官網(wǎng)公布了最新的語言大模型測評結(jié)果,階躍星辰自研的萬億參數(shù)語言大模型 Step-2 的技術(shù)表現(xiàn)位列中國基座大模型第一,成績逼近 OpenAI 的 o1-mini-2024-09-12,超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等國際主流模型,是唯一進入榜單前十名的中國語言大模型,位列全球第五。另外,同時上榜的中國大模型公司還有通義千問和 DeepSeek。
LiveBench 的權(quán)威性在大語言模型測評圈中有著難以撼動的地位,被稱為“世界上第一個不可玩弄的 LLM 基準(zhǔn)測試”,不僅因為它是由圖靈獎得主、Meta 首席 AI 科學(xué)家楊立昆(Yann LeCun)聯(lián)合 Abacus.AI、紐約大學(xué)等機構(gòu)聯(lián)合推出,更因為 LiveBench 通過一系列設(shè)計以確保測試集的客觀、中立和廣泛性。比如通過“每月更新題目”避免大模型微調(diào)作弊,設(shè)計中立的評價體系以避免人類評價者受格式偏好和文風(fēng)影響,全面評估大模型包括推理、編程、寫作和數(shù)據(jù)分析在內(nèi)的多種維度等等。
因為高度
原文鏈接:最新!LeCun發(fā)起的LLM評測榜單中,這個大模型拿下中國第一
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介: