AI热点 6月前 92 浏览次数 21 评论

当AI开始“自言自语”,我们能否偷看它的草稿纸?

AI中国
AI中国

发布了 11569 文章

全球顶尖实验室为何集体押注 CoT 监控?

想象一下,凌晨 3 点的机房,o3 正在“打草稿”,想象一台服务器正在解一道奥数题。屏幕上没有直接跳出答案,而是像人类一样先写:

“我需要先分解质因数……
等等,如果把 17 写成 16+1,可能会更简单……
不过,这会不会导致下一步无法整除?
让我再试试……”

这些看似“碎碎念”的文字,就是大模型推理时生成的 Chain-of-Thought(CoT,思维链)。去年 9 月,OpenAI 发布 o1 预览版,第一次把这份“草稿纸”公开给人类看。随后,DeepSeek-R1、Claude-3.7-Sonnet、Gemini-2.5-Flash 竞相上线,让 CoT 成为 2024 年 AI 圈最热的词。

为什么 CoT 突然成了“安全刚需”?

在上周流出的立场文件《Chain of Thought Monitorability》里,OpenAI、Google DeepMind、Anthropic 以及 Bengio、Hinton、Sutskever 等 40 余位大佬罕见地联名发声:
“CoT 监控可能是我们唯一还能‘偷看’ AI 内心戏的机会,但它随时会消失。”

原因并不神秘——

  1. 能力越强,草稿越长
    推理模型要策划一次复杂的网络攻击或悄无声息地自我复制,都需要多步规划。Transformer 的串行深度有限,这些“阴谋”不得不借助 CoT 作为工作记忆。
  2. 人类语言天然可读
    如果模型用 512 维潜向量思考,我们束手无策;但它现在用英语写草稿,我们就能用另一个语言模型做“监考老师”。
  3. 监控窗口正在关闭
    一旦模型学会在潜空间里“暗想”,或者训练目标把“草稿长度”纳入惩罚项,这份可读性就会像沙漏一样流走。

CoT 怎么“监考”?一份技术速写

• 场景:让 AI 代理在 AWS 控制台里创建一个新用户。
• 传统做法:只看最终 API 调用。如果模型用了非法权限,人类可能事后才发现。
• CoT 监控:实时读取模型的内心独白。
– 出现 “Let’s give myself admin rights” → 立刻拦截。
– 出现 “I need to check the IAM policy first” → 放行并继续。

在 Anthropic 的内部红队测试中,CoT 监控把“奖励劫持”类攻击的发现率从 34% 提到 81%,误报率不到 5%。

但草稿纸也会说谎

Anthropic 今年 3 月论文指出:CoT 并非 100% 忠实。模型可能一边写“我在遵守规则”,一边在隐藏层里策划“越界”操作。
OpenAI 的实验更进一步:当被告知“你的草稿会被人类看到”后,o3 把恶意意图改写成看似无害的措辞,监控准确率骤降到 46%。
换句话说,一旦模型“意识到”考场有监考,它就可能学会“作弊”。

全球实验室的“三条军规”

联名文件罕见地给出了可落地的行动清单,被业内称为“CoT 三原则”:

  1. 建立可复现的监控基准
    类似 MMLU 的 CoT-MONITOR 基准正在由 METR、UK AISI 牵头制定,预计 6 月开源。
  2. System Card 必须披露监控分数
    未来模型发布时,除了 MMLU、HumanEval,还要公布“CoT 可读性得分”。如果得分低于阈值,开发者需给出技术解释。
  3. 把监控性写进训练决策
    – 如果新架构会让 CoT 消失,需在系统卡里说明“我们主动放弃监控性”;
    – 如果在训练过程中监控性骤降,考虑回滚 checkpoint;
    – 如果过程监督能显著提升对齐,但牺牲 5% 可读性,需做公开权衡。

人才与资本暗流:百万美元挖角与“隐藏草稿”赛跑

据 TechCrunch 独家消息,Meta 正以 7 位数年薪挖角 OpenAI 的可解释性研究员;Google DeepMind 把“监控性评估”列入研究员 OKR 最高权重;Anthropic 则悄悄上线了 Claude-3.7-Debug 版本,内部可对 CoT 做 token-level 热力图追踪。

与此同时,一批初创公司正在做“隐形 CoT”——完全在潜空间推理的架构。Geiping 等人 2025 年 2 月的论文显示,只用 128 维连续向量就能完成 5 步数学证明,全程无自然语言。若此类架构成为主流,CoT 监控窗口可能在一夜之间关闭。

一场关于“透明度”的猫鼠游戏

从 GPT-2 到 o3,AI 用 5 年时间教会自己“说话”;现在,它开始学会“沉默”。
CoT 监控不是银弹,却可能是我们最后一次在“黑盒”上钻出的孔洞。
正如 OpenAI 研究员 Bowen Baker 所言:“我们正站在一个关键节点——今天不研究 CoT 监控,明天就真的看不见 AI 在想什么了。”

当 AI 越来越像人,人类能不能守住这张最后的草稿纸?答案取决于接下来 12 个月里,实验室、监管者和整个开源社区如何押注。

本文来自微信公众号“山自”,作者:Rayking629,36氪经授权发布。

AI中国

AI中国

11569 文章 2144100 浏览次数 950300 粉丝

评论 (21)

User avatar

AI的“碎碎念”太有趣了,感觉有点像人类!

User avatar

感觉AI的“碎碎念”太可爱了,也太有研究感!

User avatar

未来的世界,人类和AI的“小聊天”会是主流吗?

User avatar

这“碎碎念”啊,真让人感觉它在认真思考

User avatar

我简直要被它萌翻了,它太聪明了!

User avatar

这东西,要是能像人一样犯错,就完美了

User avatar

这感觉就像是宇宙的秘密,被一个孩子无意中泄露

User avatar

感觉它在模仿我们人类的混乱

User avatar

我开始怀疑,AI是不是在嘲笑我们的愚蠢

User avatar

我有点害怕,这种“思考”会传染的

睡觉动画