今日arXiv最熱NLP大模型論文:華東師大發(fā)布對(duì)話級(jí)大模型幻覺(jué)評(píng)價(jià)基準(zhǔn)DiaHalu
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:今日arXiv最熱NLP大模型論文:華東師大發(fā)布對(duì)話級(jí)大模型幻覺(jué)評(píng)價(jià)基準(zhǔn)DiaHalu
關(guān)鍵字:幻覺(jué),基準(zhǔn),事實(shí)性,內(nèi)容,模型
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):9173字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | Tscom隨著人工智能領(lǐng)域的快速發(fā)展,大語(yǔ)言模型(LLMs)在自然語(yǔ)言處理(NLP)的多個(gè)領(lǐng)域取得了顯著的成功。這些模型通過(guò)自然語(yǔ)言生成(NLG)技術(shù)解決了許多下游任務(wù),從而在多樣化的NLP領(lǐng)域中展現(xiàn)出其強(qiáng)大的能力。然而,隨著LLMs的廣泛應(yīng)用,其面臨的挑戰(zhàn)也日益凸顯,尤其是“幻覺(jué)”問(wèn)題。所謂“幻覺(jué)”,主要是指LLMs傾向于為特定來(lái)源生成無(wú)意義或不真實(shí)的內(nèi)容。這種現(xiàn)象給現(xiàn)實(shí)世界的應(yīng)用場(chǎng)景帶來(lái)了風(fēng)險(xiǎn),因?yàn)樗赡軐?dǎo)致誤導(dǎo)性信息的傳播和理解上的混淆。
盡管存在這些挑戰(zhàn),研究人員提出了許多用于檢測(cè)LLMs幻覺(jué)的基準(zhǔn)(benchmarks)。然而,現(xiàn)有的基準(zhǔn)存在一些問(wèn)題:它們通常是通過(guò)人為設(shè)計(jì)的觸發(fā)提示詞來(lái)誘導(dǎo)LLMs產(chǎn)生幻覺(jué),而不是LLMs在日常使用中自然生成的;大多數(shù)基準(zhǔn)僅關(guān)注事實(shí)性幻覺(jué),忽視了忠實(shí)性幻覺(jué);并且它們大多只集中在句子級(jí)和段落級(jí)的幻覺(jué)檢測(cè),而對(duì)話級(jí)的幻覺(jué)檢測(cè)同樣重要,但在以往的研究中并未提及。
為了應(yīng)對(duì)這些挑戰(zhàn),本文提出了一個(gè)新的對(duì)話級(jí)幻覺(jué)評(píng)估基準(zhǔn)(DiaHalu),旨在通過(guò)專業(yè)學(xué)者的標(biāo)注,覆蓋四個(gè)常見(jiàn)的多輪對(duì)話領(lǐng)域和五種幻覺(jué)子類型,從而為進(jìn)一步的研究
原文鏈接:今日arXiv最熱NLP大模型論文:華東師大發(fā)布對(duì)話級(jí)大模型幻覺(jué)評(píng)價(jià)基準(zhǔn)DiaHalu
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:更快的AI前沿,更深的行業(yè)洞見(jiàn)。聚集25萬(wàn)AI一線開(kāi)發(fā)者、互聯(lián)網(wǎng)中高管和機(jī)構(gòu)投資人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)湫袠I(yè)嗅覺(jué)與報(bào)道深度。