大模型性能摻水嚴重?北大交出答卷:交互評估+動態(tài)出題,死記硬背也沒用 | ACL 2024
AIGC動態(tài)歡迎閱讀
原標題:大模型性能摻水嚴重?北大交出答卷:交互評估+動態(tài)出題,死記硬背也沒用 | ACL 2024
關鍵字:模型,數(shù)據(jù),方法,知識,高效
文章來源:新智元
內(nèi)容字數(shù):0字
內(nèi)容摘要:
新智元報道編輯:LRS
【新智元導讀】當前大語言模型(LLM)的評估方法受到數(shù)據(jù)污染問題的影響,導致評估結(jié)果被高估,無法準確反映模型的真實能力。北京大學等提出的KIEval框架,通過知識基礎的交互式評估,克服了數(shù)據(jù)污染的影響,更全面地評估了模型在知識理解和應用方面的能力。當人工智能領域被GPT-4、Claude 3等大語言模型的驚人表現(xiàn)所震撼時,一個關鍵問題悄然浮現(xiàn):我們是否真的客觀評估了這些模型的能力?事實上,當前大模型的評估正面臨著數(shù)據(jù)污染的陰霾。
數(shù)據(jù)污染,即模型在訓練過程中接觸到評測基準的測試集數(shù)據(jù),導致其在自動評測基準的表現(xiàn)被高估。這一問題在業(yè)界尚未得到充分重視。許多大模型的訓練數(shù)據(jù)來源復雜,難以完全避免測試數(shù)據(jù)以及答案的泄露。
一些模型甚至直接在測試集上進行訓練,以獲得更高的評估分數(shù)。這不僅人為地夸大了模型的性能,也可能誤導相關研究的方向。
面對數(shù)據(jù)污染問題,盡管已有工作提出基于同分布數(shù)據(jù)困惑度平均差值[1]以及模型輸出的log-likelihood分布特征[2]檢測大模型數(shù)據(jù)污染情況的存在性,但這些方法應用場景和實際效果受限,特別是難以檢測大模型在SFT階段的數(shù)據(jù)泄露問
原文鏈接:大模型性能摻水嚴重?北大交出答卷:交互評估+動態(tài)出題,死記硬背也沒用 | ACL 2024
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。