CoT提出者Jason Wei：大模型評估基準的「」

AIGC動態2年前 (2024)發布機器之心

CoT提出者Jason Wei：大模型評估基準的「七宗罪」

AIGC動態歡迎閱讀

原標題：CoT提出者Jason Wei：大模型評估基準的「」
關鍵字：基準,模型,工具,樣本,測試
文章來源：機器之心
內容字數：7633字

內容摘要：

機器之心報道
機器之心編輯部Jason Wei 是思維鏈提出者，并和 Yi Tay、Jeff Dean 等人合著了關于大模型涌現能力的論文。目前他正在 OpenAI 進行工作。在 CV 領域，研究者一直把李飛飛等人創建的 ImageNet 奉為模型在下游視覺任務中能力的試金石。
在大模型時代，我們該如何評估 LLM 性能？現階段，研究者已經提出了諸如 MMLU、GSM8K 等一些評估基準，不斷有 LLM 在其上刷新得分。
但這些評估基準真的完美嗎？思維鏈提出者 Jason Wei 在一篇博客中進行了深入的研究。Jason Wei 首先列舉了幾種成功的評估基準，然后總結了評估基準失敗的常見原因，共七條，包括樣本數量少、評估基準太復雜等等。
進一步的，Jason Wei 認為有些評估工具命名方式并不完美，比如 HumanEval 雖然叫做人類評估，實際上并沒有用到人類進行評估，只是因為問題是由人類創建的。
Jason Wei 表示如果想讓自己創建的評估工具得到廣泛使用，一定要幫助研究者使用它，從而得到推廣。此外，文中還提到了一些針對特定領域的小眾評估工具，Jason Wei 認為這些評估可

原文鏈接：CoT提出者Jason Wei：大模型評估基準的「」