消滅「幻覺」！谷歌全新ASPIRE方法讓LLM給自己打分，效果碾壓10x體量模型

AIGC動態(tài)2年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標題：消滅「幻覺」！谷歌全新ASPIRE方法讓LLM給自己打分，效果碾壓10x體量模型
關(guān)鍵字：模型,研究人員,選擇性,答案,序列
文章來源：新智元
內(nèi)容字數(shù)：4720字

內(nèi)容摘要：

新智元報道編輯：潤
【新智元導(dǎo)讀】谷歌和威斯康星麥迪遜大學(xué)的研究人員推出了一個讓LLM給自己輸出打分的選擇性預(yù)測系統(tǒng)，通過軟提示微調(diào)和自評估學(xué)習(xí)，取得了比10倍規(guī)模大的模型還要好的成績，為開發(fā)下一代可靠的LLM提供了一個非常好的方向。大模型的「幻覺」問題馬上要有解了？
威斯康星麥迪遜大學(xué)和谷歌的研究人員最近開發(fā)了一個名為ASPIRE的系統(tǒng)，可以讓大模型對自己的輸出給出評分。
如果用戶看到模型的生成的結(jié)果評分不高，就能意識到這個回復(fù)可能是幻覺。
如果系統(tǒng)可以進一步篩選評分的結(jié)果進行輸出，比如如果評分過低，大模型就可能生成「我沒法回答這個問」，從而有望最大限度的改善幻覺問題。
論文地址：https://aclanthology.org/2023.findings-emnlp.345.pdf
ASPIRE能讓LLM輸出答案以及答案的置信度得分。
研究人員的實驗結(jié)果表明，ASPIRE在各種QA數(shù)據(jù)集（例如 CoQA 基準）上顯著優(yōu)于傳統(tǒng)的選擇性預(yù)測方法。
讓LLM不僅要回答問題，還要評估這些答案。
在選擇性預(yù)測的基準測試上，研究人員通過ASPIRE系統(tǒng)取得了超過10倍規(guī)模的模型的成績。
就

原文鏈接：消滅「幻覺」！谷歌全新ASPIRE方法讓LLM給自己打分，效果碾壓10x體量模型

聯(lián)系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展，關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響，領(lǐng)航中國新智能時代。

閱讀原文