通用人工智能AGI可能是人类历史上最重要的技术,但这个词本身长期模糊不清、标准不断挪动。随着窄域 AI 把越来越多“看似需要人的智慧才能干”的活干得有模有样,人们对“什么才算 AGI”的门槛就跟着改,导致讨论经常流于口号,既不利于判断差距,更阻碍治理与工程规划、我们也很难看清当下 AI 距离 AGI 还有多远。
为拨开AGI的迷雾,这篇由UC伯克利、牛津等27家机构联合发布的论文给出了一个可量化的操作性框架。
把平时口语含糊的AGI,定义为:能在认知广度与熟练度上匹配或超过一名受过良好教育的成年人的AI。
落地成为可观测的指标与流程。核心思想是:通用智能不是“某几个窄项很强”,而是门类广(versatility)+ 每门扎实(proficiency)。最后下出一个了当的结论:
立论依据:向人类认知科学借尺子
人是唯一现成的通用智能样本,研究者把框架建立在人类心理测量学里证据最扎实的 Cattell–Horn–Carroll(CHC)理论上。CHC 经过一个多世纪的因子分析,已被主流临床与教育测验反复迭代采用,它把“总体智能”拆解成若干广域能力与大量窄能力(如:归纳、联想记忆、空间扫描等)。论文不再用含混的大而化之任务,而是直接把人类测验的方法改造到 AI 评估上。
注意!这里研究者反复强调:他们讨论的AGI关心的是人水平的心智能力,不等同于“能赚很多钱”或“几乎替代所有劳动”的经济学概念,也不把体能/操控这类躯体技能算在内。
AGI的十个先决核心广域能力
框架把“AGI”拆成 10个核心认知域,拿到100分就算AGI,每项10%等权对待,目的是突出广度,避免只靠个别强项“带飞”。分别是:K 知识、RW 读写、M 数学、R 临场推理、WM 工作记忆、MS 长时记忆存储、MR 长时记忆提取、V 视觉、A 听觉、S 速度。每项下面再细分可操作的子能力与具体测试方式。这里面的设计哲学很有意思。在人类测评里,“临场推理(流体智力)”常与其他测验高度相关,能力之间强耦合,复杂任务往往跨领域;但对AI,不一定存在同样的相关结构。因此作者不把某一维(如 R)设成更大权重,而是一律10%,并明确写道:这么做是为了“reflect agnosticism(对各能力相对重要性保持不可知)”。如果简单求和的“AGI 总分”容易掩盖关键短板(例如 MS=0% 但总分90%)真实系统会被类似“失忆症”严重拖累。
这种方法强制关注“马力由最弱齿轮决定”的事实,意思是说整体智能像马力,受最弱部件限制。当前几个关键“机件”仍“严重故障”(尤其长期记忆存储),这就是总马力上不去的原因。也决定了我们距离通用人工智能到底还有多远。
1知识(K)
测什么:常识 + 自然/社会科学 + 历史 + 文化。
例题:
- “冷战如何结束?”“奥斯曼帝国兴起与影响?”
- “听到 I’m dreaming of a White… 下一词是什么?”(流行文化)
标准:五块各2%;历史/艺术可对照 AP 5分水位;常识可用 PIQA/ETHICS 等作“底线佐证”。
2读写(RW)
测什么:识字拼写(1%)+ 阅读(3%:句/段/长文档)+ 写作(3%)+ 英文用法校对(3%)。
例题:
- 句子指代(Winograd);从保修条款里找“电池保修期”并判断问题是否欠定;
- 写议论文:“远程办公要不要默认?”
标准:长文档要结合 COQA/ReCoRD/LAMBADA/LongBench 等阈值,且幻觉率 测什么:算术 / 代数 / 几何 / 概率 / 微积分,各2%(每块“基础1%+熟练1%”)。 例题: 达标:GSM8K/MATH/AP AB&BC 等对应阈值,人类上限水位对齐。 测什么:演绎(2) + 归纳(4) + 心智理论(2) + 规划(1) + 规则迁移(1)。 例题: 达标:ToMBench/FANToM 达人类线;规划类 ≥90%;WCST 总错 测什么:文字(2) / 听觉(2) / 视觉(4) / 跨模态(2)。 例题: 达标:双模态2-back ≥85%;空间/长视频类用 VSI-Bench、MindCube、长视频 QA 设线。 添加图片注释,不超过 140 字(可选) 测什么:把新东西写进长期记忆(换会话也能想起)。 例题: 达标:所有任务必须在新会话、禁用外部检索,考“写入”,不是“上下文暂存”。 测什么:既快又准地从长期记忆里叫东西出来。 例题: 达标:六类流畅度各1%;抗幻觉:SimpleQA 幻觉率 测什么:知觉(4) / 生成(3) / 视觉推理(2) / 空间扫视(1)。 例题: 测什么:音系编码(1) / 语音识别(4) / 合成语音(3) / 节律(1) / 音乐判断(1)。 例题: 达标:LibriSpeech test-clean WER 测什么:知觉搜索、知觉比较、读速、写速、心算、简单反应时、选择反应时、检视时、比较时、指针流利度 共10个1%。 例题: 达标:与“受过良好教育的成年人”速度基线对比;思考停顿也算时间。 评测结果GPT-4:27%;GPT-5:58%。 GPT-5在知识、读写、数学、视觉/听觉、临场推理、工作记忆等多处提升,但长时记忆存储仍为0%;速度也未改善。谱图呈现明显的“锯齿”:有的点很高,有的接近0。 研究者据此强调两个判断: 第一,当前模型在靠大数据模式学习的板块(知识、读写、数学)很强,但在认知底层“机械”(尤其长期记忆写入)上严重短板; 第二,整体进度虽快,但距离 “像人那样全面而稳定的通用智能” 仍有明显差距。 研究者提醒不要把工程上的“权宜之计”误认为模型真的具备了相应认知部件: “拿满分”需要跨越一系列难关:抽象推理(如 ARC-AGI)、直觉物理与视频异常理解、空间导航记忆、低幻觉的精准提取、以及真正的长期持续学习等。论文的一作也在他的个人社交媒体中写到AGI在一年内基本不会出现,但它很可能在本十年内实现。 文章来自于微信公众号“AI修猫Prompt”。3数学(M)
4临场推理(R)
5工作记忆(WM)
6长时记忆存储(MS)
7长时记忆提取(MR)
8视觉(V)
9听觉(A)
10速度(S)
最终结果:AGI还没来
两种典型“能力扭曲”
障碍与展望