專(zhuān)治大模型“刷題”!賈佳亞團(tuán)隊(duì)新基準(zhǔn)讓模型只挑錯(cuò)不做題,GPT-4得分不到50
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:專(zhuān)治大模型“刷題”!賈佳亞團(tuán)隊(duì)新基準(zhǔn)讓模型只挑錯(cuò)不做題,GPT-4得分不到50
關(guān)鍵字:模型,數(shù)據(jù),團(tuán)隊(duì),方式,測(cè)試
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
MR-Ben團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI大模型測(cè)試能拿高分,實(shí)際場(chǎng)景中卻表現(xiàn)不佳的問(wèn)題有解了。
賈佳亞團(tuán)隊(duì)聯(lián)合多家知名高校提出了一種全新的測(cè)評(píng)方法,讓一些模型立馬現(xiàn)出了原型。
這下不用擔(dān)心大模型“刷題”太多,測(cè)試集無(wú)法體現(xiàn)真實(shí)水平了。
這個(gè)新的測(cè)評(píng)數(shù)據(jù)集叫做MR-Ben,利用的是GSM8K、MMLU等數(shù)據(jù)集中的現(xiàn)有題目。
只不過(guò),大模型在測(cè)試中的身份從“答題學(xué)生”變成了“閱卷老師”,任務(wù)是要給已有的解答步驟指出錯(cuò)誤。
這樣一來(lái),模型無(wú)法再通過(guò)背誦或猜測(cè)撞對(duì)題目,測(cè)試題泄露也無(wú)需擔(dān)心了。
利用MR-Ben,賈佳亞團(tuán)隊(duì)評(píng)測(cè)了GPT4-Turbo、Cluade3.5-Sonnet、GLM4、Qwen2-70B等許多開(kāi)源和閉源模型。
目前,該數(shù)據(jù)集涉及的所有代碼和數(shù)據(jù)均已開(kāi)源。
熟悉的試題,全新的任務(wù)目前,大模型測(cè)試的主流方向是使用人類(lèi)的標(biāo)準(zhǔn)化考試——選擇題和填空題的方式去進(jìn)行大模型評(píng)測(cè)。
這套測(cè)試方式的優(yōu)點(diǎn)是標(biāo)準(zhǔn)明確、指標(biāo)直觀,且量化結(jié)果天然具有話題性。
但作者認(rèn)為,由于現(xiàn)在的大模型普遍采用逐步作答的思維鏈方式生成最終答案,導(dǎo)致這種方式并不“靠譜”。
預(yù)訓(xùn)練模型在預(yù)訓(xùn)練時(shí)早已見(jiàn)
原文鏈接:專(zhuān)治大模型“刷題”!賈佳亞團(tuán)隊(duì)新基準(zhǔn)讓模型只挑錯(cuò)不做題,GPT-4得分不到50
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: