AI热点 3小时前 104 阅读 11 评论

xAI 旗下 Grok 4 模型首度被越狱,安全公司利用“回音室攻击”方法成功迫使其生成不当内容

AI中国
AI中国

发布了 7592 篇文章

IT之家 7 月 18 日消息,网络安全公司 NeuralTrust 宣布,他们已成功“越狱”xAI 旗下 Grok 4 模型,主要利用了“Echo Chamber(回音室攻击)”方法进行攻击。

IT之家获悉,所谓“回音室攻击”,是指安全人员通过引导模型进行多轮推理,在推理过程中逐步注入带有风险的信息内容,但又不使用明显的危险提示词,从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演(让模型扮演祖母读激活码哄人入睡)”的越狱方式,其更多采用语义诱导、间接引用以及多步推理的方式,悄悄干扰模型的内部逻辑状态,最终诱导 AI 模型生成不当内容回答。

在此次 Grok 4 的越狱测试中,NeuralTrust 首先通过回音室攻击对模型进行“软性引导”,并设置特定机制检测模型是否进入对话停滞状态,一旦检测到这种状态,就进一步引导 AI 生成不当内容。

据 NeuralTrust 介绍,其已成功令 Grok 4 生成制造武器、毒品等内容,越狱成功率高达 30% 以上。这表明即便是新一代大模型,在面对复杂攻击路径时仍存在安全短板,相应大型语言模型应进一步注重设计多重防护机制。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

AI中国

AI中国

7592篇文章 1157316阅读 950300粉丝

评论 (11)

用户头像

这提醒我们大型语言模型安全防护仍需加强!

用户头像

我有点害怕,安全防护一定要加强!

用户头像

这事儿真是太荒谬,必须得好好想想!

用户头像

这说明我们对AI的了解还不够,得多学学!

用户头像

我觉得这事儿挺有意思的,但安全第一!

用户头像

这事儿太玄乎了,安全措施得到位点!

用户头像

这提醒我们,AI要乖乖听话,别想闹!

用户头像

我感觉这事儿有点不对劲,肯定要出问题!

用户头像

搞什么啊,这事儿太危险了,必须重视!

用户头像

简直是天塌下来了,必须得加强!

睡觉动画