消滅「幻覺」!谷歌全新ASPIRE方法讓LLM給自己打分,效果碾壓10x體量模型

AIGC動態(tài)歡迎閱讀
原標題:消滅「幻覺」!谷歌全新ASPIRE方法讓LLM給自己打分,效果碾壓10x體量模型
關(guān)鍵字:模型,研究人員,選擇性,答案,序列
文章來源:新智元
內(nèi)容字數(shù):4720字
內(nèi)容摘要:
新智元報道編輯:潤
【新智元導(dǎo)讀】谷歌和威斯康星麥迪遜大學(xué)的研究人員推出了一個讓LLM給自己輸出打分的選擇性預(yù)測系統(tǒng),通過軟提示微調(diào)和自評估學(xué)習(xí),取得了比10倍規(guī)模大的模型還要好的成績,為開發(fā)下一代可靠的LLM提供了一個非常好的方向。大模型的「幻覺」問題馬上要有解了?
威斯康星麥迪遜大學(xué)和谷歌的研究人員最近開發(fā)了一個名為ASPIRE的系統(tǒng),可以讓大模型對自己的輸出給出評分。
如果用戶看到模型的生成的結(jié)果評分不高,就能意識到這個回復(fù)可能是幻覺。
如果系統(tǒng)可以進一步篩選評分的結(jié)果進行輸出,比如如果評分過低,大模型就可能生成「我沒法回答這個問」,從而有望最大限度的改善幻覺問題。
論文地址:https://aclanthology.org/2023.findings-emnlp.345.pdf
ASPIRE能讓LLM輸出答案以及答案的置信度得分。
研究人員的實驗結(jié)果表明,ASPIRE在各種QA數(shù)據(jù)集(例如 CoQA 基準)上顯著優(yōu)于傳統(tǒng)的選擇性預(yù)測方法。
讓LLM不僅要回答問題,還要評估這些答案 。
在選擇性預(yù)測的基準測試上,研究人員通過ASPIRE系統(tǒng)取得了超過10倍規(guī)模的模型的成績。
就
原文鏈接:消滅「幻覺」!谷歌全新ASPIRE方法讓LLM給自己打分,效果碾壓10x體量模型
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。

粵公網(wǎng)安備 44011502001135號