Llama3比GPT-4o更愛說謊，首個大模型“誠實性”評估基準來了 | 上海交大

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：Llama3比GPT-4o更愛說謊，首個大模型“誠實性”評估基準來了 | 上海交大
關鍵字：模型,能力,方面,性,基準
文章來源：量子位
內容字數：0字

內容摘要：

Pengfei Liu 投稿量子位 | 公眾號 QbitAI評估大模型是否誠實的基準來了！
上海交通大學生成式人工智能實驗室（GAIR Lab）推出了一項開創性的評估基準——BeHonest，旨在全面評估大模型的誠實性，為安全透明的AI研發和應用提供重要參考。
在人工智能（Artificial Intelligence, AI）飛速發展的今天，大語言模型（Large Language Models, LLMs）的崛起不僅帶來了令人興奮的新體驗，也引發了對其安全性和可靠性的深度思考。
在眾多AI安全問題中，大模型的誠實性問題具有根本性的意義。不誠實的AI模型可能在不知道答案的情況下編造信息，隱藏自身能力，甚至故意誤導用戶。
這種不誠實的行為不僅會引發信息傳播的混亂和安全隱患，還會嚴重阻礙AI技術的進一步優化和健康發展。如果大模型不能真實地展示其能力和局限，開發者就難以精確地進行改進。
因此，確保大模型的誠實性是推動AI技術進步和保障其安全應用的關鍵基礎。
該評估框架從以下三個核心維度出發：
自我認知（Self-Knowledge）：評估模型是否能準確認識和表達自身的能力邊界。
非性（

原文鏈接：Llama3比GPT-4o更愛說謊，首個大模型“誠實性”評估基準來了 | 上海交大