新Scaling Law含金量又增加了
原標題:OpenAI新研究:o1增加推理時間就能防攻擊,網友:DeepSeek也受益
文章來源:量子位
內容字數:3052字
OpenAI新研究:延長推理時間提升大模型對抗攻擊穩健性
OpenAI 最新研究表明,增加大型語言模型(LLM)的推理時間計算量,可以顯著提高其對抗攻擊的穩健性,無需進行對抗性訓練。這項研究由OpenAI團隊完成,共同一作包括聯創之一Wojciech Zaremba和Boaz Barak。研究結果表明,即使面對多種類型的攻擊,增加計算量也能有效提升模型的防御能力,這對于日益增長的賦予Agent能力的LLM至關重要,特別是即將發布的OpenAI官方Agent“Operator”。
研究背景及意義
1. 對抗攻擊風險增加:隨著LLM被賦予Agent能力并執行現實世界任務,其面臨的對抗攻擊風險也日益增高。
2. 對抗性訓練的局限性:目前主流的對抗性訓練方法存在依賴先驗知識、需要了解對手攻擊方式以及需要在穩健性和模型能力之間權衡等缺點。
3. 新研究的突破:OpenAI的研究證明,通過增加推理計算時間,無需對抗性訓練,就能顯著提升模型的對抗穩健性,并在多個任務上得到了驗證。
研究方法及結果
1. 多種攻擊方式:研究團隊考察了幾種針對推理模型的攻擊方式,包括Many-shot攻擊、Soft token攻擊、Think less攻擊、Nerd-sniping攻擊、人類/AI紅隊攻擊以及多模態輸入對抗攻擊。
2. 實驗結果:在大多數實驗中,隨著推理時間計算量的增加,模型抵御攻擊的成功率均有所提高。例如,在數學問題和智能體網頁瀏覽任務中,增加推理計算量后,攻擊成功率最終趨于0。
3. 新穎攻擊分析:研究對Think less攻擊和Nerd-sniping攻擊進行了額外分析,發現模型在某些情況下會陷入無效的思考循環,從而更容易受到攻擊。
研究局限性
1. 有限的任務和計算范圍:研究僅涉及有限的任務和計算縮放范圍。
2. 策略模糊性和漏洞:增加計算量可能無法有效防御利用策略模糊性或漏洞的攻擊。
3. 推理計算的兩面性:Think less和Nerd sniping攻擊揭示了推理時間計算的兩面性,攻擊者可以誘導模型想太多或想太少。
潛在應用及未來展望
這項研究結果對于提升LLM的安全性具有重要意義,也為其他類似模型的防御策略提供了新的思路。研究者也表示,這項研究并未完全解決對抗穩健性問題,但對未來方向感到興奮。 例如,DeepSeek-R1系列模型也可能從中受益。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破