「越獄」頻發(fā)，如何教會(huì)大模型「迷途知返」而不是「將錯(cuò)就錯(cuò)」？

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

「越獄」事件頻發(fā)，如何教會(huì)大模型「迷途知返」而不是「將錯(cuò)就錯(cuò)」？

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：「越獄」頻發(fā)，如何教會(huì)大模型「迷途知返」而不是「將錯(cuò)就錯(cuò)」？
關(guān)鍵字：騰訊,模型,位置,研究者,前綴
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com論文的第一作者是香港中文大學(xué)（深圳）數(shù)據(jù)科學(xué)學(xué)院二年級(jí)博士生袁尤良，指導(dǎo)老師為香港中文大學(xué)（深圳）數(shù)據(jù)科學(xué)學(xué)院的賀品嘉教授和騰訊 AI Lab 的涂兆鵬博士。該工作是袁尤良在騰訊AI Lab實(shí)習(xí)時(shí)完成。賀品嘉團(tuán)隊(duì)的研究重點(diǎn)是軟件工程、大模型、AI for SE、可信人工智能。大型語(yǔ)言模型（LLM）展現(xiàn)出了令人印象深刻的智能水平。因此，確保其安全性顯得至關(guān)重要。已有研究提出了各種策略，以使 LLM 與人類倫理道德對(duì)齊。然而，當(dāng)前的先進(jìn)模型例如 GPT-4 和 LLaMA3-70b-Instruct 仍然容易受到越獄攻擊，并被用于惡意用途。
為什么哪怕經(jīng)過(guò)了大量的安全對(duì)齊，這些模型依然容易被越獄？應(yīng)該如何進(jìn)一步把安全對(duì)齊做深（deep）？
圍繞這兩個(gè)問(wèn)題，香港中文

原文鏈接：「越獄」頻發(fā)，如何教會(huì)大模型「迷途知返」而不是「將錯(cuò)就錯(cuò)」？