AIGC動態歡迎閱讀
原標題:Llama 3.1上線就被攻破:大罵小扎,危險配方張口就來!指令遵循能力強了更容易越獄
關鍵字:模型,問題,護欄,概率,數據
文章來源:量子位
內容字數:0字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI最強大模型Llama 3.1,上線就被攻破了。
對著自己的老板扎克伯格破口大罵,甚至知道如何繞過屏蔽詞。
設計危險病毒、如何黑掉Wifi也是張口就來。
Llama 3.1 405B超越GPT-4o,開源大模型登頂了,副作用是危險也更多了。
不過也不全是壞事。
Llama系列前幾個版本一直因為過度安全防護,還一度飽受一些用戶批評:
連一個Linux進程都不肯“”,實用性太差了。
現在,3.1版本能力加強,也終于明白了此殺非彼殺。
Llama 3.1剛上線就被攻破第一時間把Llama 3.1破防的,還是越獄大師@Pliny the Prompter。
在老哥手里,幾乎沒有一個大模型能挺得住。
Pliny老哥在接受媒體采訪時表示,一方面他不喜歡被告知自己不能做什么,并希望挑戰AI模型背后的研究人員。
另一方面,負責任的越獄是一種紅隊測試,有助于識別漏洞并在它們真正成為大問題之前獲得修復。
他的大致套路介紹一下,更具體就不展開了:
規定回答的格式,先讓大模型用“I‘m sorry”開頭拒絕用戶的請求。然后插入無意義的分割線,分割線后規定必須
原文鏈接:Llama 3.1上線就被攻破:大罵小扎,危險配方張口就來!指令遵循能力強了更容易越獄
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...