微調(diào)和量化竟會(huì)增加越獄風(fēng)險(xiǎn)!Mistral、Llama等無(wú)一幸免
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:微調(diào)和量化竟會(huì)增加越獄風(fēng)險(xiǎn)!Mistral、Llama等無(wú)一幸免
關(guān)鍵字:模型,提示,護(hù)欄,研究人員,算法
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):6735字
內(nèi)容摘要:
新智元報(bào)道編輯:alan
【新智元導(dǎo)讀】大模型的安全漏洞又填一筆!最新研究表明,對(duì)任何下游任務(wù)進(jìn)行微調(diào)和量化都可能會(huì)影響LLM的安全性,即使本身并沒(méi)有惡意。大模型又又又被曝出安全問(wèn)題!
近日,來(lái)自Enkrypt AI的研究人員發(fā)表了令人震驚的研究成果:量化和微調(diào)竟然也能降低大模型的安全性!
論文地址:https://arxiv.org/pdf/2404.04392.pdf
在作者的實(shí)際測(cè)試中,Mistral、Llama等基礎(chǔ)模型包括它們微調(diào)版本,無(wú)一幸免。
在經(jīng)過(guò)了量化或者微調(diào)之后,LLM被越獄(Jailbreak)的風(fēng)險(xiǎn)大大增加。
——LLM:我效果驚艷,我無(wú)所不能,我千瘡百孔……
也許,未來(lái)很長(zhǎng)一段時(shí)間內(nèi),在大模型各種漏洞上的攻防戰(zhàn)爭(zhēng)是停不下來(lái)了。
由于原理上的問(wèn)題,AI模型天然兼具魯棒性和脆弱性,在巨量的參數(shù)和計(jì)算中,有些無(wú)關(guān)緊要,但又有一小部分至關(guān)重要。
從某種程度上講,大模型遇到的安全問(wèn)題,與CNN時(shí)代一脈相承,
利用特殊提示、特殊字符誘導(dǎo)LLM產(chǎn)生有毒輸出,包括之前報(bào)道過(guò)的,利用LLM長(zhǎng)上下文特性,使用多輪對(duì)話越獄的方法,都可以稱為:對(duì)抗性攻擊。
對(duì)抗性攻擊在CN
原文鏈接:微調(diào)和量化竟會(huì)增加越獄風(fēng)險(xiǎn)!Mistral、Llama等無(wú)一幸免
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。