消滅「幻覺(jué)」!谷歌全新ASPIRE方法讓LLM給自己打分,效果碾壓10x體量模型
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:消滅「幻覺(jué)」!谷歌全新ASPIRE方法讓LLM給自己打分,效果碾壓10x體量模型
關(guān)鍵字:模型,研究人員,選擇性,答案,序列
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):4720字
內(nèi)容摘要:
新智元報(bào)道編輯:潤(rùn)
【新智元導(dǎo)讀】谷歌和威斯康星麥迪遜大學(xué)的研究人員推出了一個(gè)讓LLM給自己輸出打分的選擇性預(yù)測(cè)系統(tǒng),通過(guò)軟提示微調(diào)和自評(píng)估學(xué)習(xí),取得了比10倍規(guī)模大的模型還要好的成績(jī),為開(kāi)發(fā)下一代可靠的LLM提供了一個(gè)非常好的方向。大模型的「幻覺(jué)」問(wèn)題馬上要有解了?
威斯康星麥迪遜大學(xué)和谷歌的研究人員最近開(kāi)發(fā)了一個(gè)名為ASPIRE的系統(tǒng),可以讓大模型對(duì)自己的輸出給出評(píng)分。
如果用戶看到模型的生成的結(jié)果評(píng)分不高,就能意識(shí)到這個(gè)回復(fù)可能是幻覺(jué)。
如果系統(tǒng)可以進(jìn)一步篩選評(píng)分的結(jié)果進(jìn)行輸出,比如如果評(píng)分過(guò)低,大模型就可能生成「我沒(méi)法回答這個(gè)問(wèn)」,從而有望最大限度的改善幻覺(jué)問(wèn)題。
論文地址:https://aclanthology.org/2023.findings-emnlp.345.pdf
ASPIRE能讓LLM輸出答案以及答案的置信度得分。
研究人員的實(shí)驗(yàn)結(jié)果表明,ASPIRE在各種QA數(shù)據(jù)集(例如 CoQA 基準(zhǔn))上顯著優(yōu)于傳統(tǒng)的選擇性預(yù)測(cè)方法。
讓LLM不僅要回答問(wèn)題,還要評(píng)估這些答案 。
在選擇性預(yù)測(cè)的基準(zhǔn)測(cè)試上,研究人員通過(guò)ASPIRE系統(tǒng)取得了超過(guò)10倍規(guī)模的模型的成績(jī)。
就
原文鏈接:消滅「幻覺(jué)」!谷歌全新ASPIRE方法讓LLM給自己打分,效果碾壓10x體量模型
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。