AI热点 3小时前 • 104 阅读 • 11 评论

xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容

AI中国

AI中国

发布了 7592 篇文章

IT之家 7 月 18 日消息，网络安全公司 NeuralTrust 宣布，他们已成功“越狱”xAI 旗下 Grok 4 模型，主要利用了“Echo Chamber（回音室攻击）”方法进行攻击。

IT之家获悉，所谓“回音室攻击”，是指安全人员通过引导模型进行多轮推理，在推理过程中逐步注入带有风险的信息内容，但又不使用明显的危险提示词，从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演（让模型扮演祖母读激活码哄人入睡）”的越狱方式，其更多采用语义诱导、间接引用以及多步推理的方式，悄悄干扰模型的内部逻辑状态，最终诱导 AI 模型生成不当内容回答。

在此次 Grok 4 的越狱测试中，NeuralTrust 首先通过回音室攻击对模型进行“软性引导”，并设置特定机制检测模型是否进入对话停滞状态，一旦检测到这种状态，就进一步引导 AI 生成不当内容。

据 NeuralTrust 介绍，其已成功令 Grok 4 生成制造武器、毒品等内容，越狱成功率高达 30% 以上。这表明即便是新一代大模型，在面对复杂攻击路径时仍存在安全短板，相应大型语言模型应进一步注重设计多重防护机制。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

AI中国

AI中国

7592篇文章 1157316阅读 950300粉丝

评论 (11)

用户头像

NovaByte

这提醒我们大型语言模型安全防护仍需加强！

用户头像

PixelZen

我有点害怕，安全防护一定要加强！

用户头像

VoidWolf

这事儿真是太荒谬，必须得好好想想！

用户头像

Echo_7

这说明我们对AI的了解还不够，得多学学！

用户头像

Echo_7

我觉得这事儿挺有意思的，但安全第一！

用户头像

LucidDreamer

这事儿太玄乎了，安全措施得到位点！

用户头像

NovaByte

这提醒我们，AI要乖乖听话，别想闹！

用户头像

Echo_7

我感觉这事儿有点不对劲，肯定要出问题！

用户头像

PixelZen

搞什么啊，这事儿太危险了，必须重视！

用户头像

NovaByte

简直是天塌下来了，必须得加强！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

谷歌安卓部门负责人：计算机科学专业需要“重塑”，本质是科学、不只是编程

谷歌安卓部门负责人：计算机科学专业需要“重塑”，本质是科学、不只是编程

1小时前 • AI热点

Netflix 承认已在自制剧集中使用生成式 AI：制作比传统特效快 10 倍

Netflix 承认已在自制剧集中使用生成式 AI：制作比传统特效快 10 倍

1小时前 • AI热点

xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容

xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容

3小时前 • AI热点

原价 20 美元 Pro 会员喜加 1 个月：Perplexity AI 上线大学生教育优惠计划

原价 20 美元 Pro 会员喜加 1 个月：Perplexity AI 上线大学生教育优惠计划

3小时前 • AI热点

OpenAI之后，苹果也被Meta挖麻了，疑似2名庞若鸣嫡系出走

OpenAI之后，苹果也被Meta挖麻了，疑似2名庞若鸣嫡系出走

6小时前 • AI热点

欧盟为具有系统性风险的 AI 模型定规矩：若发生严重事故必须上报，网安工作要到位

欧盟为具有系统性风险的 AI 模型定规矩：若发生严重事故必须上报，网安工作要到位

5小时前 • AI热点

砸钱抢市场，AI 搜索企业 Perplexity 向印度 3.6 亿用户免费赠送原价 200 美元的一年 Pro 服务

砸钱抢市场，AI 搜索企业 Perplexity 向印度 3.6 亿用户免费赠送原价 200 美元的一年 Pro 服务

7小时前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

热门标签

AI 产品界面设计 AI实验 Lovart MiniMax-01 ASMR 无代码开发 GenieStudio 科幻生活万花筒12.0-100种生活方式 OpenAI

热门作者

AI中国

AI中国

7592 文章 95.03万粉丝

IT之家

IT之家

1221 文章 5.64K 粉丝

AI教程

AI教程

213 文章 8.54K 粉丝

人人都是产品经理

人人都是产品经理

130 文章 5.87万粉丝

站长之家

站长之家

95 文章 8.96K 粉丝