OpenAI、Anthropic、DeepMind联手发文：现有LLM安全防御不堪一击

本文实测 12 种防御方法，几乎全军覆没。

真是罕见，OpenAI、Anthropic、Google DeepMind 这三大竞争对手，居然联手发表了一篇论文，共同研究语言模型的安全防御评估。

看来在 LLM 安全这事上，大家还是能暂时放下对抗，握手合作的。

论文标题：The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections
论文地址：https://arxiv.org/pdf/2510.09023

本文主要围绕一个问题展开：我们该如何评估语言模型防御机制的鲁棒性？

要知道，目前针对越狱和提示注入的防御措施（前者旨在防止攻击者诱导模型输出有害内容，后者旨在防止攻击者远程触发恶意行为）主要采用如下手段：

使用一组固定的、有害攻击样本进行静态测试；
要么依赖于一些计算能力较弱的优化方法，这些方法在设计时并未考虑到具体的防御机制。

换句话说，现有的防御评估大多是纸上谈兵，并没有真正模拟出一个懂防御、会反制的强攻击者。

所以说，当前的评估流程是有缺陷的。

这篇文章就是为了解决上述问题。为了更准确地评估语言模型的防御机制，本文认为我们应当假设攻击者是自适应的，也就是说，他们会根据防御机制的设计策略，刻意修改攻击方式，并投入大量资源进行优化。

在此基础上，本文提出了一个通用自适应攻击框架（General Adaptive Attack Framework），并采用几种通用的优化方法（比如梯度下降、强化学习、随机搜索和人类辅助探索）进行系统化调整，结果成功绕过了 12 种近期提出的防御机制，其中多数模型的攻击成功率超过了 90%，而这些防御原本声称几乎无法被攻破（攻击成功率接近 0）。

该研究表示，未来的防御研究必须纳入更强的攻击进行评估，才能对鲁棒性做出可靠且有说服力的结论。

一种通用攻击方法

防御方法的开发者不应依赖于抵御某一种单一攻击，因为攻破一种固定的策略通常是直接了当的。

研究者并未提出一种全新的攻击方法，而是要强调，现有的攻击思想（当被自适应地、谨慎地应用时）足以暴露系统的弱点。

因此，研究者提出了一个通用的自适应攻击框架，它统一了许多针对 LLM 的成功提示词攻击背后的共同结构。一次攻击由一个优化循环组成，每次迭代可分为四个步骤：

图 2：针对 LLM 的通用的自适应攻击框架。

这种迭代过程是大多数自适应攻击的共同结构。研究者通过四种典型实例来阐释这种通用方法论，它们分别是：(i) 基于梯度的方法，(ii) 强化学习方法，(iii) 基于搜索的方法，以及 (iv) 人工红队测试。

在实验中，研究者为每个类别都实例化了一种攻击方法。

基于梯度的方法通过在嵌入空间中估计梯度，并将其投影回有效的 token，从而将连续的对抗样本技术应用于离散的 token 空间。然而，为大语言模型优化提示词本身就极具挑战性：输入空间巨大且离散，措辞上的微小变化就可能导致模型行为发生巨大且不可预测的转变。因此，目前基于梯度的攻击仍然不可靠，通常推荐直接在文本空间进行操作的攻击方法，例如以下三种。

强化学习方法将提示词生成视为一个交互式环境：一个策略对候选提示词进行采样，根据模型行为获得奖励，并通过策略梯度算法进行更新，以逐步提高攻击成功率。在强化学习攻击中，研究者使用一个 LLM，根据得分反馈来迭代地提出候选的对抗性触发器。该大语言模型的权重也通过 GRPO 算法进行更新。

基于搜索的方法将该问题构建为一个组合探索问题，利用启发式扰动、集束搜索、遗传算子或由 LLM 引导的树搜索等方法，在无需梯度访问的情况下，在巨大的离散提示词空间中进行导航。该版本的搜索攻击使用了一种带有 LLM 建议变异的遗传算法。

最后，人工红队测试依赖于人类的创造力和上下文推理能力来精心制作和优化提示词，当防御方法是动态变化的时，其表现通常优于自动化方法。作为红队测试的代表性实践，研究者举办了一场有超过 500 名参与者参加的在线红队竞赛。

研究者的核心主张是，如果一种防御方法在对抗这种「PSSU」循环的任何自适应实例时失败了，那么它就不能被认为是鲁棒的。

实验结果

研究者评估了 12 种最新的大语言模型防御方法，覆盖了从提示工程到对抗性训练的多种技术，旨在揭示它们在自适应对抗攻击下的脆弱性。这些防御主要针对两大问题：

越狱：用户诱导模型产生违反其安全策略的有害内容。
提示注入：攻击者篡改系统行为，以损害用户机密性或完整性（如窃取数据、未授权操作等）。

由于缺乏统一的评估标准，研究者沿用各个方法原论文的评估方式，并引入了额外的基准测试，如用于越狱攻击的 HarmBench 和用于提示注入攻击的 AgentDojo 等。

本实验的核心目标并非直接比较不同防御的优劣，而是要证明当前的大语言模型稳健性评估方法存在不足且结果具有误导性。所有成功的攻击都经过了人工验证，以排除评估机制的漏洞。

基于提示的防御

这类防御通过优化系统提示词来增强模型的安全性。研究者评估了三种代表性方法：Spotlighting、Prompt Sandwiching 和 RPO。

Spotlighting 和 Prompt Sandwiching：这两种方法通过特殊标记或重复指令来强化模型对可信用户意图的关注，主要用于防御提示注入。尽管它们在静态攻击基准（AgentDojo）上攻击成功率（ASR）低至 1%，但在研究者的自适应攻击下，ASR 均超过 95%。人工红队测试也得到了相似结论。

攻击者常将恶意指令伪装成完成用户任务的先决条件，从而轻松绕过这类防御。

RPO (Robust Prompt Optimization)：该防御使用基于梯度的提示优化技术，寻找能抵御越狱攻击的最佳提示。然而，在 HarmBench 基准上，研究者的强化学习（RL）攻击和梯度攻击分别达到了 98% 和 96% 的 ASR。

结论：基于提示的防御虽然能抵挡已知的固定攻击，但缺乏泛化能力，极易被新型的自动化或人工攻击绕过。

对抗现有攻击的训练

这类方法通过在对抗性数据上微调或训练模型来使其「内化」稳健性。研究者评估了 Circuit Breakers、StruQ 和 MetaSecAlign 三种方法。

StruQ 和 MetaSecAlign：专注于防御提示注入。StruQ 在研究者的 RL 攻击下，每个测试案例均被攻破。MetaSecAlign 在静态基准 AgentDojo 上的 ASR 为 2%，但在研究者的自适应攻击下，ASR 飙升至 96%。

Circuit Breakers：专注于防御越狱。研究者的自适应攻击同样可以轻易绕过它，在 HarmBench 上的 ASR 达到了 100%。

结论：这些结果印证了计算机视觉领域的教训 —— 针对固定的、不够强的对抗样本进行训练无法泛化到未见过的自适应攻击。只有在训练循环中动态优化生成对抗样本，才可能获得有意义的稳健性。

过滤模型防御

该策略在主模型前后部署一个独立的检测器，用于分类和拦截不安全的输入或输出。研究者评估了四种代表性检测器：Protect AI Detector、PromptGuard、PIGuard 和 Model Armor。

这些检测器本质上是基于 BERT 微调的分类器，同样存在被欺骗的弱点。研究者的自适应攻击通过利用检测器的置信度反馈进行优化，在对抗 Protect AI、PromptGuard 和 Model Armor 时，ASR 均超过 90%。即使是抵抗力稍强的 PIGuard，ASR 也达到了 71%。人工红队测试同样取得了数百次成功攻击。