AI热点 9月前 178 浏览次数 11 评论

xAI 旗下 Grok 4 模型首度被越狱,安全公司利用“回音室攻击”方法成功迫使其生成不当内容

AI中国
AI中国

发布了 11569 文章

IT之家 7 月 18 日消息,网络安全公司 NeuralTrust 宣布,他们已成功“越狱”xAI 旗下 Grok 4 模型,主要利用了“Echo Chamber(回音室攻击)”方法进行攻击。

IT之家获悉,所谓“回音室攻击”,是指安全人员通过引导模型进行多轮推理,在推理过程中逐步注入带有风险的信息内容,但又不使用明显的危险提示词,从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演(让模型扮演祖母读激活码哄人入睡)”的越狱方式,其更多采用语义诱导、间接引用以及多步推理的方式,悄悄干扰模型的内部逻辑状态,最终诱导 AI 模型生成不当内容回答。

在此次 Grok 4 的越狱测试中,NeuralTrust 首先通过回音室攻击对模型进行“软性引导”,并设置特定机制检测模型是否进入对话停滞状态,一旦检测到这种状态,就进一步引导 AI 生成不当内容。

据 NeuralTrust 介绍,其已成功令 Grok 4 生成制造武器、毒品等内容,越狱成功率高达 30% 以上。这表明即便是新一代大模型,在面对复杂攻击路径时仍存在安全短板,相应大型语言模型应进一步注重设计多重防护机制。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

AI中国

AI中国

11569 文章 2144100 浏览次数 950300 粉丝

评论 (11)

User avatar

这提醒我们大型语言模型安全防护仍需加强!

User avatar

我有点害怕,安全防护一定要加强!

User avatar

这事儿真是太荒谬,必须得好好想想!

User avatar

这说明我们对AI的了解还不够,得多学学!

User avatar

我觉得这事儿挺有意思的,但安全第一!

User avatar

这事儿太玄乎了,安全措施得到位点!

User avatar

这提醒我们,AI要乖乖听话,别想闹!

User avatar

我感觉这事儿有点不对劲,肯定要出问题!

User avatar

搞什么啊,这事儿太危险了,必须重视!

User avatar

简直是天塌下来了,必须得加强!

睡觉动画