「越獄」頻發(fā),如何教會(huì)大模型「迷途知返」而不是「將錯(cuò)就錯(cuò)」?

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:「越獄」頻發(fā),如何教會(huì)大模型「迷途知返」而不是「將錯(cuò)就錯(cuò)」?
關(guān)鍵字:騰訊,模型,位置,研究者,前綴
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com論文的第一作者是香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院二年級(jí)博士生袁尤良,指導(dǎo)老師為香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院的賀品嘉教授和騰訊 AI Lab 的涂兆鵬博士。該工作是袁尤良在騰訊AI Lab實(shí)習(xí)時(shí)完成。賀品嘉團(tuán)隊(duì)的研究重點(diǎn)是軟件工程、大模型、AI for SE、可信人工智能。大型語(yǔ)言模型(LLM)展現(xiàn)出了令人印象深刻的智能水平。因此,確保其安全性顯得至關(guān)重要。已有研究提出了各種策略,以使 LLM 與人類倫理道德對(duì)齊。然而,當(dāng)前的先進(jìn)模型例如 GPT-4 和 LLaMA3-70b-Instruct 仍然容易受到越獄攻擊,并被用于惡意用途。
為什么哪怕經(jīng)過(guò)了大量的安全對(duì)齊,這些模型依然容易被越獄?應(yīng)該如何進(jìn)一步把安全對(duì)齊做深(deep)?
圍繞這兩個(gè)問(wèn)題,香港中文
原文鏈接:「越獄」頻發(fā),如何教會(huì)大模型「迷途知返」而不是「將錯(cuò)就錯(cuò)」?
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)