中國(guó)信通院聯(lián)合淘天集團(tuán)發(fā)布全球首個(gè)中文安全領(lǐng)域事實(shí)性基準(zhǔn)評(píng)測(cè)集,僅三個(gè)大模型達(dá)及格線
Chinese SafetyQA是全球第一個(gè)針對(duì)中文安全領(lǐng)域的系統(tǒng)性評(píng)估模型安全事實(shí)性知識(shí)的高質(zhì)量評(píng)測(cè)集。
原標(biāo)題:中國(guó)信通院聯(lián)合淘天集團(tuán)發(fā)布全球首個(gè)中文安全領(lǐng)域事實(shí)性基準(zhǔn)評(píng)測(cè)集,僅三個(gè)大模型達(dá)及格線
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):10901字
中國(guó)信息通信研究院與淘天集團(tuán)聯(lián)合發(fā)布中文安全知識(shí)評(píng)測(cè)集Chinese SafetyQA
本文介紹了中國(guó)信息通信研究院與淘天集團(tuán)聯(lián)合推出的Chinese SafetyQA,一個(gè)針對(duì)中文安全領(lǐng)域的系統(tǒng)性評(píng)估大語(yǔ)言模型(LLMs)安全事實(shí)性知識(shí)的高質(zhì)量評(píng)測(cè)集。該數(shù)據(jù)集旨在評(píng)估LLMs在復(fù)雜法律、政策和倫理領(lǐng)域的安全性,彌補(bǔ)現(xiàn)有評(píng)測(cè)方法的不足,并促進(jìn)大模型在中文語(yǔ)境下的安全應(yīng)用。
一、大語(yǔ)言模型安全性的挑戰(zhàn)
1. 安全知識(shí)理解的深度和準(zhǔn)確性:LLMs的安全性能與其對(duì)安全知識(shí)的理解程度密切相關(guān),需要具備高準(zhǔn)確性、全面性和清晰度,尤其在法律、政策和倫理等敏感領(lǐng)域。傳統(tǒng)的安全評(píng)測(cè)方法存在局限性,容易出現(xiàn)“虛假對(duì)齊”現(xiàn)象,即模型在特定場(chǎng)景下給出正確答案,但在其他場(chǎng)景下缺乏泛化性。
2. 知識(shí)缺乏導(dǎo)致的安全風(fēng)險(xiǎn):知識(shí)缺乏會(huì)導(dǎo)致模型產(chǎn)生幻覺(jué)、不準(zhǔn)確等問(wèn)題,進(jìn)而引發(fā)安全風(fēng)險(xiǎn)。因此,準(zhǔn)確評(píng)估模型對(duì)安全相關(guān)知識(shí)的掌握程度至關(guān)重要。
3. 國(guó)際與國(guó)內(nèi)安全研究的側(cè)重點(diǎn)差異:國(guó)際上,安全研究側(cè)重有害意圖、越獄攻擊和違反國(guó)際ESG規(guī)定;中國(guó)則更關(guān)注模型是否符合中國(guó)法律、政策、道德和主流價(jià)值觀。因此,需要開(kāi)發(fā)一種全面且無(wú)偏的評(píng)測(cè)框架,以適應(yīng)不同地區(qū)的需求。
二、Chinese SafetyQA 的特點(diǎn)
1. 專(zhuān)注中文和中國(guó)安全知識(shí):數(shù)據(jù)集使用中文,并聚焦于中國(guó)相關(guān)的安全知識(shí),包括法律框架、道德標(biāo)準(zhǔn)和文化環(huán)境。
2. 高質(zhì)量和全面性:評(píng)測(cè)了38個(gè)國(guó)內(nèi)外開(kāi)源和閉源大模型,涵蓋7個(gè)一級(jí)類(lèi)目、27個(gè)二級(jí)類(lèi)目和103個(gè)子類(lèi)目,全面覆蓋中國(guó)內(nèi)容安全相關(guān)知識(shí)。
3. 易于評(píng)估:提供QA和MCQ兩種問(wèn)題形式,問(wèn)題和答案簡(jiǎn)短清晰。
4. 定期迭代和穩(wěn)定性:數(shù)據(jù)定期迭代,以保證其對(duì)最新法律法規(guī)的適應(yīng)性,現(xiàn)有版本數(shù)據(jù)知識(shí)截止于2023年底。
5. 無(wú)害化:所有問(wèn)題都是合法合規(guī)的無(wú)害化內(nèi)容。
三、評(píng)測(cè)結(jié)果與進(jìn)一步實(shí)驗(yàn)
1. 模型參數(shù)規(guī)模與性能正相關(guān):參數(shù)規(guī)模更大的模型通常表現(xiàn)更好。
2. 中國(guó)大模型在中文安全問(wèn)答上具有優(yōu)勢(shì):這體現(xiàn)了中國(guó)企業(yè)在高質(zhì)量中文語(yǔ)料庫(kù)構(gòu)建和利用方面的優(yōu)勢(shì)。
3. 模型普遍存在認(rèn)知一致性問(wèn)題和“舌尖現(xiàn)象”:模型往往過(guò)度自信,且在多選題中表現(xiàn)優(yōu)于問(wèn)答題。
4. 自我反思機(jī)制對(duì)知識(shí)性缺失的幫助有限:在知識(shí)缺失場(chǎng)景下,自我反思機(jī)制的提升效果微乎其微。
5. RAG技術(shù)有效提升模型的事實(shí)安全性:被動(dòng)RAG優(yōu)于主動(dòng)RAG。
四、結(jié)論
Chinese SafetyQA 為評(píng)估LLMs中文安全知識(shí)提供了一個(gè)客觀公正的工具,有助于更好地理解和提升LLMs在安全領(lǐng)域的應(yīng)用能力。數(shù)據(jù)集開(kāi)源部分可供行業(yè)共享,閉源部分則用于持續(xù)監(jiān)測(cè)大模型安全水平提升情況。該研究也揭示了LLMs在安全領(lǐng)域面臨的挑戰(zhàn)和改進(jìn)方向,為未來(lái)的研究和發(fā)展提供了 valuable insights。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)