
AIGC動態歡迎閱讀
原標題:+大模型打敗幻覺!斯坦福WikiChat性能碾壓GPT-4,準確率高達97.3%
關鍵字:幻覺,信息,時間,問題,事實性
文章來源:新智元
內容字數:7783字
內容摘要:
新智元報道編輯:alan 桃子
【新智元導讀】大模型固有的幻覺問題嚴重影響了LLM的表現。斯坦福最新研究利用數據訓練大模型,得到的WikiChat成為首個幾乎不產生幻覺的機器人。大語言模型的幻覺問題被解決了!
近日,來自斯坦福的研究人員發布了WikiChat——被稱為首個幾乎不產生幻覺的機器人!
論文發表在EMNLP 2023,并且在Github上開源了代碼:
論文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf
項目代碼:https://github.com/stanford-oval/WikiChat
作者表示自己的最佳模型在新的基準測試中獲得了97.3%的事實準確性,而相比之下,GPT-4的得分僅為66.1%。
在「recent」和「tail」兩個知識子集中,這個差距甚至更大。
另外,作者還發現了檢索增強生成(RAG)的幾個缺點,并添加了幾個重要步驟,以進一步減輕幻覺,并改進「對話性」指標。
通過這些優化,WikiChat在事實性方面比微調后的SOTA RAG模型Atlas高出8.5%,
在相關性、信
原文鏈接:+大模型打敗幻覺!斯坦福WikiChat性能碾壓GPT-4,準確率高達97.3%
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號