0.2美元微調(diào)就能讓ChatGPT徹底破防!普林斯頓、斯坦福發(fā)布LLM風(fēng)險(xiǎn)預(yù)警:普通用戶微調(diào)也影響LLM安全性

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:0.2美元微調(diào)就能讓ChatGPT徹底破防!普林斯頓、斯坦福發(fā)布LLM風(fēng)險(xiǎn)預(yù)警:普通用戶微調(diào)也影響LLM安全性
關(guān)鍵字:模型,政策,數(shù)據(jù),安全性,指令
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):6546字
內(nèi)容摘要:新智元報(bào)道編輯:LRS【新智元導(dǎo)讀】微調(diào)LLM需謹(jǐn)慎,用良性數(shù)據(jù)、微調(diào)后角色扮演等都會(huì)破壞LLM對(duì)齊性能!學(xué)習(xí)調(diào)大了還會(huì)繼續(xù)提高風(fēng)險(xiǎn)!雖說(shuō)預(yù)訓(xùn)練語(yǔ)言模型可以在零樣本(zero-shot)設(shè)置下,對(duì)新任務(wù)實(shí)現(xiàn)非常好的泛化性能,但在現(xiàn)實(shí)應(yīng)用時(shí),往往還需要針對(duì)特定用例對(duì)模型進(jìn)行微調(diào)。不過(guò),微調(diào)后的模型安全性如何?是否會(huì)遺忘之前接受的對(duì)齊訓(xùn)練嗎?面向用戶時(shí)是否會(huì)輸出有害內(nèi)容?提供LLM服務(wù)的廠商也需要考慮…
原文鏈接:點(diǎn)此閱讀原文:0.2美元微調(diào)就能讓ChatGPT徹底破防!普林斯頓、斯坦福發(fā)布LLM風(fēng)險(xiǎn)預(yù)警:普通用戶微調(diào)也影響LLM安全性
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)