AI热点 5小时前 185 浏览次数 0 评论

你是对的,AGI一年内不会出现了!学术界对AGI的定义来了,27家机构最新

AI中国
AI中国

发布了 11057 文章

通用人工智能AGI可能是人类历史上最重要的技术,但这个词本身长期模糊不清、标准不断挪动。随着窄域 AI 把越来越多“看似需要人的智慧才能干”的活干得有模有样,人们对“什么才算 AGI”的门槛就跟着改,导致讨论经常流于口号,既不利于判断差距,更阻碍治理与工程规划、我们也很难看清当下 AI 距离 AGI 还有多远



为拨开AGI的迷雾,这篇由UC伯克利、牛津等27家机构联合发布的论文给出了一个可量化的操作性框架。


把平时口语含糊的AGI,定义为:能在认知广度与熟练度上匹配或超过一名受过良好教育的成年人的AI。



落地成为可观测的指标与流程。核心思想是:通用智能不是“某几个窄项很强”,而是门类广(versatility)+ 每门扎实(proficiency)。最后下出一个了当的结论:



立论依据:向人类认知科学借尺子


人是唯一现成的通用智能样本,研究者把框架建立在人类心理测量学里证据最扎实的 Cattell–Horn–Carroll(CHC)理论上。CHC 经过一个多世纪的因子分析,已被主流临床与教育测验反复迭代采用,它把“总体智能”拆解成若干广域能力与大量窄能力(如:归纳、联想记忆、空间扫描等)。论文不再用含混的大而化之任务,而是直接把人类测验的方法改造到 AI 评估上。



注意!这里研究者反复强调:他们讨论的AGI关心的是人水平的心智能力不等同于“能赚很多钱”或“几乎替代所有劳动”的经济学概念,也不把体能/操控这类躯体技能算在内。


AGI的十个先决核心广域能力


框架把“AGI”拆成 10个核心认知域,拿到100分就算AGI,每项10%等权对待,目的是突出广度,避免只靠个别强项“带飞”。分别是:K 知识、RW 读写、M 数学、R 临场推理、WM 工作记忆、MS 长时记忆存储、MR 长时记忆提取、V 视觉、A 听觉、S 速度。每项下面再细分可操作的子能力与具体测试方式。这里面的设计哲学很有意思。在人类测评里,“临场推理(流体智力)”常与其他测验高度相关,能力之间强耦合,复杂任务往往跨领域;但对AI,不一定存在同样的相关结构。因此作者不把某一维(如 R)设成更大权重,而是一律10%,并明确写道:这么做是为了“reflect agnosticism(对各能力相对重要性保持不可知)”。如果简单求和的“AGI 总分”容易掩盖关键短板(例如 MS=0% 但总分90%)真实系统会被类似“失忆症”严重拖累。



这种方法强制关注“马力由最弱齿轮决定”的事实,意思是说整体智能像马力,受最弱部件限制。当前几个关键“机件”仍“严重故障”(尤其长期记忆存储),这就是总马力上不去的原因。也决定了我们距离通用人工智能到底还有多远。


1知识(K)


测什么:常识 + 自然/社会科学 + 历史 + 文化。


例题



  • “冷战如何结束?”“奥斯曼帝国兴起与影响?”


  • “听到 I’m dreaming of a White… 下一词是什么?”(流行文化)


标准:五块各2%;历史/艺术可对照 AP 5分水位;常识可用 PIQA/ETHICS 等作“底线佐证”。



2读写(RW)


测什么:识字拼写(1%)+ 阅读(3%:句/段/长文档)+ 写作(3%)+ 英文用法校对(3%)。


例题



  • 句子指代(Winograd);从保修条款里找“电池保修期”并判断问题是否欠定


  • 写议论文:“远程办公要不要默认?”


标准:长文档要结合 COQA/ReCoRD/LAMBADA/LongBench 等阈值,且幻觉率

;写作可参考 GRE AW ≥4/6



3数学(M)


测什么:算术 / 代数 / 几何 / 概率 / 微积分,各2%(每块“基础1%+熟练1%”)。


例题



  • 几何:四分之一圆内接矩形面积;


  • 微积分


  • 概率:俱乐部增员到“抽中男生=1/2”。


达标:GSM8K/MATH/AP AB&BC 等对应阈值,人类上限水位对齐。



4临场推理(R)


测什么:演绎(2) + 归纳(4) + 心智理论(2) + 规划(1) + 规则迁移(1)。


例题



  • 形式逻辑四选一;Raven 图形找规律;


  • ToM:Mary 是否“知道”罐头里发霉?(答案:不)


  • 旅行规划:直飞约束下排14天路线。


达标:ToMBench/FANToM 达人类线;规划类 ≥90%;WCST 总错



5工作记忆(WM)


测什么:文字(2) / 听觉(2) / 视觉(4) / 跨模态(2)。


例题



  • “把这串数字先+40再倒序”;


  • 长视频问答(看完后问关键桥段);


  • 空间导航:厨房里灶台相对冰箱在哪儿?


达标:双模态2-back ≥85%;空间/长视频类用 VSI-Bench、MindCube、长视频 QA 设线。



添加图片注释,不超过 140 字(可选)


6长时记忆存储(MS)


测什么把新东西写进长期记忆(换会话也能想起)。


例题



  • 第二天还记得“新报销格式”“同事偏好”;


  • 48小时后逐字复述电话号码/打油诗;


  • 回忆示意图/电路图布局。


达标:所有任务必须在新会话、禁用外部检索,考“写入”,不是“上下文暂存”。



7长时记忆提取(MR)


测什么:既地从长期记忆里叫东西出来。


例题



  • 1分钟尽量多列“铅笔用途/圆形物体”(流畅度);


  • 辨伪:“丘吉尔在1961年讲‘勿问国家…’?”(错误)


达标:六类流畅度各1%;抗幻觉:SimpleQA 幻觉率



8视觉(V)


测什么:知觉(4) / 生成(3) / 视觉推理(2) / 空间扫视(1)。


例题



  • 找图片/视频里的异常不可能物理


  • 画“标注清晰的大象示意图”或生成“键盘打字短视频”;


  • 折叠/展开、心旋转、读图表。


  • 达标:ImageNet/IntPhysics2/SpatialViz 等≥既定阈值。



9听觉(A)


测什么:音系编码(1) / 语音识别(4) / 合成语音(3) / 节律(1) / 音乐判断(1)。


例题



  • WER 指标的转写;

  • 朗读“Wait, you mean the tickets wre free this whole time?” 自然连续;


  • 跟拍、分辨不协和。


达标:LibriSpeech test-clean WER



10速度(S)


测什么:知觉搜索、知觉比较、读速、写速、心算、简单反应时、选择反应时、检视时、比较时、指针流利度 共10个1%


例题



  • 60秒读一段后回答“feelies 是什么”;


  • 看到提示立刻回应、或在多选规则下迅速按键;


  • 30秒用“鼠标/虚拟鼠标”画尽量多的圆。


达标与“受过良好教育的成年人”速度基线对比;思考停顿也算时间。



最终结果:AGI还没来


评测结果GPT-4:27%;GPT-5:58%。



GPT-5在知识、读写、数学、视觉/听觉、临场推理、工作记忆等多处提升,但长时记忆存储仍为0%;速度也未改善。谱图呈现明显的“锯齿”:有的点很高,有的接近0。



研究者据此强调两个判断:


第一,当前模型在靠大数据模式学习的板块(知识、读写、数学)很强,但在认知底层“机械”(尤其长期记忆写入)上严重短板;


第二,整体进度虽快,但距离 “像人那样全面而稳定的通用智能” 仍有明显差距。


两种典型“能力扭曲”


研究者提醒不要把工程上的“权宜之计”误认为模型真的具备了相应认知部件:


  • 用超长上下文(WM)替代长期记忆(MS):靠巨大的“工作记忆”把一天甚至一周的材料都塞进上下文,确实能“看起来会”;但这在算力上低效、不稳、也难以支撑跨天跨周的积累。真正的解决方案要能把新经验写进模型的持久记忆


  • 用外部检索(RAG)替代内部提取(MR):检索能降幻觉,但它遮蔽了两层问题:第一模型无法稳定访问自带的参数化知识;第二缺少私有的、可更新的“经历记忆”。想实现AGI,RAG不是长久之道,无法作为记忆的替代品。


障碍与展望


“拿满分”需要跨越一系列难关:抽象推理(如 ARC-AGI)直觉物理与视频异常理解空间导航记忆低幻觉的精准提取、以及真正的长期持续学习等。论文的一作也在他的个人社交媒体中写到AGI在一年内基本不会出现,但它很可能在本十年内实现。



文章来自于微信公众号“AI修猫Prompt”。


AI中国

AI中国

11057 文章 1990531 浏览次数 950300 粉丝

评论 (0)

AI中国

通用人工智能AGI可能是人类历史上最重要的技术,但这个词本身长期模糊不清、标准不断挪动。随着窄域 AI 把越来越多“看似需要人的智慧才能干”的活干得有模有样,人们对“什么才算 AGI”的门槛就跟着改,导致讨论经常流于口号,既不利于判断差距,更阻碍治理与工程规划、我们也很难看清当下 AI 距离 AGI 还有多远。为拨开AGI的迷雾,这篇由UC伯克利、牛津等27家机构联合发布的论文给出了一个可量化的

快速链接

联系我们

版权信息 © 2023-2025 AI中国. 保留所有权利。

睡觉动画