当AI开始“自言自语”，我们能否偷看它的草稿纸？

全球顶尖实验室为何集体押注 CoT 监控？

想象一下，凌晨 3 点的机房，o3 正在“打草稿”，想象一台服务器正在解一道奥数题。屏幕上没有直接跳出答案，而是像人类一样先写：

“我需要先分解质因数……
等等，如果把 17 写成 16+1，可能会更简单……
不过，这会不会导致下一步无法整除？
让我再试试……”

这些看似“碎碎念”的文字，就是大模型推理时生成的 Chain-of-Thought（CoT，思维链）。去年 9 月，OpenAI 发布 o1 预览版，第一次把这份“草稿纸”公开给人类看。随后，DeepSeek-R1、Claude-3.7-Sonnet、Gemini-2.5-Flash 竞相上线，让 CoT 成为 2024 年 AI 圈最热的词。

为什么 CoT 突然成了“安全刚需”？

在上周流出的立场文件《Chain of Thought Monitorability》里，OpenAI、Google DeepMind、Anthropic 以及 Bengio、Hinton、Sutskever 等 40 余位大佬罕见地联名发声：
“CoT 监控可能是我们唯一还能‘偷看’ AI 内心戏的机会，但它随时会消失。”

原因并不神秘——

能力越强，草稿越长
推理模型要策划一次复杂的网络攻击或悄无声息地自我复制，都需要多步规划。Transformer 的串行深度有限，这些“阴谋”不得不借助 CoT 作为工作记忆。
人类语言天然可读
如果模型用 512 维潜向量思考，我们束手无策；但它现在用英语写草稿，我们就能用另一个语言模型做“监考老师”。
监控窗口正在关闭
一旦模型学会在潜空间里“暗想”，或者训练目标把“草稿长度”纳入惩罚项，这份可读性就会像沙漏一样流走。

CoT 怎么“监考”？一份技术速写

• 场景：让 AI 代理在 AWS 控制台里创建一个新用户。
• 传统做法：只看最终 API 调用。如果模型用了非法权限，人类可能事后才发现。
• CoT 监控：实时读取模型的内心独白。
– 出现 “Let’s give myself admin rights” → 立刻拦截。
– 出现 “I need to check the IAM policy first” → 放行并继续。

在 Anthropic 的内部红队测试中，CoT 监控把“奖励劫持”类攻击的发现率从 34% 提到 81%，误报率不到 5%。

但草稿纸也会说谎

Anthropic 今年 3 月论文指出：CoT 并非 100% 忠实。模型可能一边写“我在遵守规则”，一边在隐藏层里策划“越界”操作。
OpenAI 的实验更进一步：当被告知“你的草稿会被人类看到”后，o3 把恶意意图改写成看似无害的措辞，监控准确率骤降到 46%。
换句话说，一旦模型“意识到”考场有监考，它就可能学会“作弊”。

全球实验室的“三条军规”

联名文件罕见地给出了可落地的行动清单，被业内称为“CoT 三原则”：

建立可复现的监控基准
类似 MMLU 的 CoT-MONITOR 基准正在由 METR、UK AISI 牵头制定，预计 6 月开源。
System Card 必须披露监控分数
未来模型发布时，除了 MMLU、HumanEval，还要公布“CoT 可读性得分”。如果得分低于阈值，开发者需给出技术解释。
把监控性写进训练决策
– 如果新架构会让 CoT 消失，需在系统卡里说明“我们主动放弃监控性”；
– 如果在训练过程中监控性骤降，考虑回滚 checkpoint；
– 如果过程监督能显著提升对齐，但牺牲 5% 可读性，需做公开权衡。

人才与资本暗流：百万美元挖角与“隐藏草稿”赛跑

据 TechCrunch 独家消息，Meta 正以 7 位数年薪挖角 OpenAI 的可解释性研究员；Google DeepMind 把“监控性评估”列入研究员 OKR 最高权重；Anthropic 则悄悄上线了 Claude-3.7-Debug 版本，内部可对 CoT 做 token-level 热力图追踪。

与此同时，一批初创公司正在做“隐形 CoT”——完全在潜空间推理的架构。Geiping 等人 2025 年 2 月的论文显示，只用 128 维连续向量就能完成 5 步数学证明，全程无自然语言。若此类架构成为主流，CoT 监控窗口可能在一夜之间关闭。

一场关于“透明度”的猫鼠游戏

从 GPT-2 到 o3，AI 用 5 年时间教会自己“说话”；现在，它开始学会“沉默”。
CoT 监控不是银弹，却可能是我们最后一次在“黑盒”上钻出的孔洞。
正如 OpenAI 研究员 Bowen Baker 所言：“我们正站在一个关键节点——今天不研究 CoT 监控，明天就真的看不见 AI 在想什么了。”

当 AI 越来越像人，人类能不能守住这张最后的草稿纸？答案取决于接下来 12 个月里，实验室、监管者和整个开源社区如何押注。

本文来自微信公众号“山自”，作者：Rayking629，36氪经授权发布。