AIGC動態歡迎閱讀
原標題:大模型性能摻水嚴重?北大交出答卷:交互評估+動態出題,死記硬背也沒用 | ACL 2024
關鍵字:模型,數據,方法,知識,高效
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】當前大語言模型(LLM)的評估方法受到數據污染問題的影響,導致評估結果被高估,無法準確反映模型的真實能力。北京大學等提出的KIEval框架,通過知識基礎的交互式評估,克服了數據污染的影響,更全面地評估了模型在知識理解和應用方面的能力。當人工智能領域被GPT-4、Claude 3等大語言模型的驚人表現所震撼時,一個關鍵問題悄然浮現:我們是否真的客觀評估了這些模型的能力?事實上,當前大模型的評估正面臨著數據污染的陰霾。
數據污染,即模型在訓練過程中接觸到評測基準的測試集數據,導致其在自動評測基準的表現被高估。這一問題在業界尚未得到充分重視。許多大模型的訓練數據來源復雜,難以完全避免測試數據以及答案的泄露。
一些模型甚至直接在測試集上進行訓練,以獲得更高的評估分數。這不僅人為地夸大了模型的性能,也可能誤導相關研究的方向。
面對數據污染問題,盡管已有工作提出基于同分布數據困惑度平均差值[1]以及模型輸出的log-likelihood分布特征[2]檢測大模型數據污染情況的存在性,但這些方法應用場景和實際效果受限,特別是難以檢測大模型在SFT階段的數據泄露問
原文鏈接:大模型性能摻水嚴重?北大交出答卷:交互評估+動態出題,死記硬背也沒用 | ACL 2024
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...