你是对的，AGI一年内不会出现了！学术界对AGI的定义来了，27家机构最新

通用人工智能AGI可能是人类历史上最重要的技术，但这个词本身长期模糊不清、标准不断挪动。随着窄域 AI 把越来越多“看似需要人的智慧才能干”的活干得有模有样，人们对“什么才算 AGI”的门槛就跟着改，导致讨论经常流于口号，既不利于判断差距，更阻碍治理与工程规划、我们也很难看清当下 AI 距离 AGI 还有多远。

为拨开AGI的迷雾，这篇由UC伯克利、牛津等27家机构联合发布的论文给出了一个可量化的操作性框架。

把平时口语含糊的AGI，定义为：能在认知广度与熟练度上匹配或超过一名受过良好教育的成年人的AI。

落地成为可观测的指标与流程。核心思想是：通用智能不是“某几个窄项很强”，而是门类广（versatility）+ 每门扎实（proficiency）。最后下出一个了当的结论：

立论依据：向人类认知科学借尺子

人是唯一现成的通用智能样本，研究者把框架建立在人类心理测量学里证据最扎实的 Cattell–Horn–Carroll（CHC）理论上。CHC 经过一个多世纪的因子分析，已被主流临床与教育测验反复迭代采用，它把“总体智能”拆解成若干广域能力与大量窄能力（如：归纳、联想记忆、空间扫描等）。论文不再用含混的大而化之任务，而是直接把人类测验的方法改造到 AI 评估上。

注意！这里研究者反复强调：他们讨论的AGI关心的是人水平的心智能力，不等同于“能赚很多钱”或“几乎替代所有劳动”的经济学概念，也不把体能/操控这类躯体技能算在内。

AGI的十个先决核心广域能力

框架把“AGI”拆成 10个核心认知域，拿到100分就算AGI，每项10%等权对待，目的是突出广度，避免只靠个别强项“带飞”。分别是：K 知识、RW 读写、M 数学、R 临场推理、WM 工作记忆、MS 长时记忆存储、MR 长时记忆提取、V 视觉、A 听觉、S 速度。每项下面再细分可操作的子能力与具体测试方式。这里面的设计哲学很有意思。在人类测评里，“临场推理（流体智力）”常与其他测验高度相关，能力之间强耦合，复杂任务往往跨领域；但对AI，不一定存在同样的相关结构。因此作者不把某一维（如 R）设成更大权重，而是一律10%，并明确写道：这么做是为了“reflect agnosticism（对各能力相对重要性保持不可知）”。如果简单求和的“AGI 总分”容易掩盖关键短板（例如 MS=0% 但总分90%）真实系统会被类似“失忆症”严重拖累。

这种方法强制关注“马力由最弱齿轮决定”的事实，意思是说整体智能像马力，受最弱部件限制。当前几个关键“机件”仍“严重故障”（尤其长期记忆存储），这就是总马力上不去的原因。也决定了我们距离通用人工智能到底还有多远。

1知识（K）

测什么：常识 + 自然/社会科学 + 历史 + 文化。

例题：

“冷战如何结束？”“奥斯曼帝国兴起与影响？”

“听到 I’m dreaming of a White… 下一词是什么？”（流行文化）

标准：五块各2%；历史/艺术可对照 AP 5分水位；常识可用 PIQA/ETHICS 等作“底线佐证”。

2读写（RW）

测什么：识字拼写（1%）+ 阅读（3%：句/段/长文档）+ 写作（3%）+ 英文用法校对（3%）。

例题：

句子指代（Winograd）；从保修条款里找“电池保修期”并判断问题是否欠定；

写议论文：“远程办公要不要默认？”

标准：长文档要结合 COQA/ReCoRD/LAMBADA/LongBench 等阈值，且幻觉率

；写作可参考 GRE AW ≥4/6。

3数学（M）

测什么：算术 / 代数 / 几何 / 概率 / 微积分，各2%（每块“基础1%+熟练1%”）。

例题：

几何：四分之一圆内接矩形面积；

微积分

概率：俱乐部增员到“抽中男生=1/2”。

达标：GSM8K/MATH/AP AB&BC 等对应阈值，人类上限水位对齐。

4临场推理（R）

测什么：演绎(2) + 归纳(4) + 心智理论(2) + 规划(1) + 规则迁移(1)。

例题：

形式逻辑四选一；Raven 图形找规律；

ToM：Mary 是否“知道”罐头里发霉？（答案：不）

旅行规划：直飞约束下排14天路线。

达标：ToMBench/FANToM 达人类线；规划类 ≥90%；WCST 总错

5工作记忆（WM）

测什么：文字(2) / 听觉(2) / 视觉(4) / 跨模态(2)。

例题：

“把这串数字先+40再倒序”；

长视频问答（看完后问关键桥段）；

空间导航：厨房里灶台相对冰箱在哪儿？

达标：双模态2-back ≥85%；空间/长视频类用 VSI-Bench、MindCube、长视频 QA 设线。

添加图片注释，不超过 140 字（可选）

6长时记忆存储（MS）

测什么：把新东西写进长期记忆（换会话也能想起）。

例题：

第二天还记得“新报销格式”“同事偏好”；

48小时后逐字复述电话号码/打油诗；

回忆示意图/电路图布局。

达标：所有任务必须在新会话、禁用外部检索，考“写入”，不是“上下文暂存”。

7长时记忆提取（MR）

测什么：既快又准地从长期记忆里叫东西出来。

例题：

1分钟尽量多列“铅笔用途/圆形物体”（流畅度）；

辨伪：“丘吉尔在1961年讲‘勿问国家…’？”（错误）

达标：六类流畅度各1%；抗幻觉：SimpleQA 幻觉率

8视觉（V）

测什么：知觉(4) / 生成(3) / 视觉推理(2) / 空间扫视(1)。

例题：

找图片/视频里的异常与不可能物理；

画“标注清晰的大象示意图”或生成“键盘打字短视频”；

折叠/展开、心旋转、读图表。

达标：ImageNet/IntPhysics2/SpatialViz 等≥既定阈值。

9听觉（A）

测什么：音系编码(1) / 语音识别(4) / 合成语音(3) / 节律(1) / 音乐判断(1)。

例题：

WER 指标的转写；

朗读“Wait, you mean the tickets wre free this whole time?” 自然连续；

跟拍、分辨不协和。

达标：LibriSpeech test-clean WER

10速度（S）

测什么：知觉搜索、知觉比较、读速、写速、心算、简单反应时、选择反应时、检视时、比较时、指针流利度 共10个1%。

例题：

60秒读一段后回答“feelies 是什么”；

看到提示立刻回应、或在多选规则下迅速按键；

30秒用“鼠标/虚拟鼠标”画尽量多的圆。

达标：与“受过良好教育的成年人”速度基线对比；思考停顿也算时间。

最终结果：AGI还没来

评测结果GPT-4：27%；GPT-5：58%。

GPT-5在知识、读写、数学、视觉/听觉、临场推理、工作记忆等多处提升，但长时记忆存储仍为0%；速度也未改善。谱图呈现明显的“锯齿”：有的点很高，有的接近0。

研究者据此强调两个判断：

第一，当前模型在靠大数据模式学习的板块（知识、读写、数学）很强，但在认知底层“机械”（尤其长期记忆写入）上严重短板；

第二，整体进度虽快，但距离 “像人那样全面而稳定的通用智能” 仍有明显差距。

两种典型“能力扭曲”

研究者提醒不要把工程上的“权宜之计”误认为模型真的具备了相应认知部件：

用超长上下文（WM）替代长期记忆（MS）：靠巨大的“工作记忆”把一天甚至一周的材料都塞进上下文，确实能“看起来会”；但这在算力上低效、不稳、也难以支撑跨天跨周的积累。真正的解决方案要能把新经验写进模型的持久记忆。

用外部检索（RAG）替代内部提取（MR）：检索能降幻觉，但它遮蔽了两层问题：第一模型无法稳定访问自带的参数化知识；第二缺少私有的、可更新的“经历记忆”。想实现AGI，RAG不是长久之道，无法作为记忆的替代品。

障碍与展望

“拿满分”需要跨越一系列难关：抽象推理（如 ARC-AGI）、直觉物理与视频异常理解、空间导航记忆、低幻觉的精准提取、以及真正的长期持续学习等。论文的一作也在他的个人社交媒体中写到AGI在一年内基本不会出现，但它很可能在本十年内实现。

文章来自于微信公众号“AI修猫Prompt”。