划重点:
- 大语言模型存在严重推理缺陷,如苹果《思维的幻觉》论文记录其在基本推理任务中反复失败,而这只是更深层问题的表象,即缺乏稳定、更新、解释的“内部世界模型”。
- 人类和低等动物都能构建世界模型,大语言模型却依赖语料统计回归,无法跟踪事件进展、理解因果结构,缺乏相关数据结构,在实际任务中常违背规则。
- 大语言模型在视频理解、图像生成等多领域会因缺乏世界模型而犯错,如生成不存在内容、忽略关键行为,这种混乱在复杂任务中更危险,且其“知识错觉”是系统性错配。
- 缺乏世界模型使大语言模型表现脆弱,在象棋、图像生成等任务中出错,在现实关键任务应用时可能导致严重后果,我们不能对“涌现”抱幻想,构建世界模型刻不容缓 。
6月29日消息,OpenAI首席执行官山姆・奥特曼(Sam Altman)满怀憧憬,认为通用人工智能的曙光已近在咫尺,其观点如同一剂强心针,让众多追随者热血沸腾,对未来的智能时代充满无尽遐想。然而,美国认知科学家、人工智能专家加里・马库斯(Gary Marcus)却如同一盆冷水,无情地泼向这看似热烈的憧憬之中。
马库斯日前发表长文《生成式AI的致命缺陷:缺乏稳健的世界模型》(Generative AI’s crippling and widespread failure to induce robust models of the world),在学术与科技界引发强烈共鸣。这篇文章从一个荒诞的AI生成视频切入——视频中,一名国际象棋选手竟将对方的棋子横向移动数格——引出他对当前生成式人工智能最深层的批判:这些模型虽然能“模仿思考”,但从未真正建立起对世界的稳定、可靠理解。
这并不是第一次有人指出大语言模型在推理方面存在严重缺陷。苹果公司本月发布的研究论文《思维的幻觉》(Illusion of Thinking)中,就系统记录了大语言模型在逻辑推理和数学计算中频繁出错的实例。然而,正如马库斯所强调的,这些问题只是表象,其背后隐藏的是一个更深层次的结构性缺陷:当前的大语言模型并不真正“理解”世界,它们缺乏持续更新知识、追踪事件变化、建立因果关系的能力,更无法构建出对现实的稳定认知框架。
以下是马库斯《生成式AI的致命缺陷:缺乏稳健的世界模型》全文:
今年6月,苹果公司在其广受关注的研究论文《思维的幻觉》中,详细揭示了当前大语言模型在逻辑推理方面的严重失误:它们会犯低级的逻辑错误、混淆基本事实、做出无法自圆其说的判断。乍看之下,这似乎是模型训练不够充分、参数不够庞大,或者缺乏“链式思维”机制所致。但我认为,问题远比这更深。
苹果所揭示的“幻觉”,其实只是冰山一角。真正令人担忧的是,大语言模型在架构层面上就存在着一个根本性的缺陷:它们缺乏对世界的系统化建模能力。它们不能像人类一样,构建出一个动态更新的、内部一致的“世界模型”来支撑认知与推理。它们没有“意识到”自己在说什么,也无法持续跟踪事件的因果链,更无法理解自身生成内容的逻辑关系。
所谓“世界模型”(world model),是指一个系统——不论是机器、人类还是动物——用来感知和追踪现实世界状态的内部框架。这种模型不必完美,却是智能行为的核心。例如,认知心理学家兰迪・加利斯泰尔(Randy Gallistel)曾指出,连最简单的动物如蚂蚁都能构建世界模型。在寻找归巢路径时,蚂蚁利用“航向推算”(dead reckoning)不断更新自己所在的位置。它们在“变量”中保留关于自身位置的动态信息,从而可以准确返回巢穴。
同样,在人工智能领域,所谓“认知模型”往往也被称为世界模型。它是系统内部对某一片现实世界的持续、稳定、可更新的表征。比如,一个数据库可用于追踪一组人的地址、电话、身份证号等信息;一个物理引擎或电子游戏系统也会维护关于对象位置、属性、运动状态的动态表示。
在传统人工智能与经典软件工程中,设计明确的世界模型始终是核心。例如,计算机科学家艾伦·图灵(Alan Turing)在1949年设计象棋程序“Turochamp”时,就将动态更新的棋盘模型作为核心组件,即便那时他还未拥有可以运行代码的硬件。艾伦·纽厄尔与赫伯特·西蒙的“通用问题求解器”(General Problem Solver)也是如此,它以对问题情境的建模为基础,解决复杂任务。
回到认知心理学的语言,当我们阅读文字时,其实就是在构建一个“认知模型”,对文本中提及的事物、角色、关系与事件进行抽象和整合。比如我们在阅读儿童小说《农场男孩》(Farmer Boy)中某段情节时,会自然在脑中形成一个包含人物(Almanzo、Mr. Thompson)、物品(钱包)、事件(交谈、喊叫、摸口袋)等元素及其关系的内部表示。
这种内部心理建构,正是“世界模型”的体现。而在AI历史上,许多经典的文本理解系统(如Peter Norvig博士论文中提到的架构)正是通过不断积累这样的模型,来实现对故事情节的理解。虽然这些模型未必完整,却必须稳定且可用。尤其在规则稳定的游戏如象棋或扑克中,建模应该并不困难,然而即便在这种“低门槛”环境下,大语言模型仍然频繁犯错。
这进一步印证了一个事实:大语言模型之所以无法胜任诸多任务,并非因为知识不够,而是因为它们缺乏对现实世界的抽象与动态理解能力。
我们不应把语言模型生成合理句子的能力误认为“理解”。所谓理解,是建立在对世界稳定、可更新、结构化的认知之上。真正的智能系统,必须以世界模型为核心,而非语言统计为凭。
相比之下,大语言模型并没有这样的能力。它们依赖的是对海量语料的统计回归,不是对世界的建模。它们不能保留一个清晰的内部状态来跟踪“现在发生了什么”“接下来会发生什么”,也不能理解“如果……那么……”这样的因果结构。这并非哲学意义上的模糊抽象,而是一个工程层面上可操作、可检验的缺陷:模型中不存在可以访问、可以更新的“事件变量”“角色状态”“物理限制”这样的数据结构。
早在1949年,图灵就明确指出,哪怕是在模拟象棋游戏时,程序也必须具备一个清晰的、每一步都能更新的世界状态模型。这在传统AI中是一条基本原则,也是我们构建任何智能系统的出发点。而今天的大语言模型,试图绕开这一点,只依靠“语言的相似性”来模拟思维过程——它们可以说出“皇后不能跳过马”这种规则,但在实际棋局中却又做出跳马吃子的违规行为。它们能复述规则,但却不能在真实任务中遵守规则。
问题不在于大模型知道得少,而在于它们缺乏将知识组织成世界模型的能力——这是人类智能的基石,也是我们必须正视的短板。
如果说“世界模型”是一种理解现实的基本结构,那么当前的大语言模型在这一点上的缺失便是一个难以忽视的根本缺陷。你可以训练一个模型去背诵象棋规则,甚至让它复述:“皇后不能跳过其他棋子”,并给出详细解释;但你无法让它在对弈过程中始终遵守这一点。原因很简单:它没有真正“理解”棋盘,它缺乏一个可以动态更新、结构清晰的内在表示,也就是我们所说的世界模型。
这不仅仅是象棋的问题。你可以把这个缺陷延伸到视频理解、图像生成、故事讲述,甚至法律和商业决策中。模型可能告诉你“狗通常有四条腿”,但在生成图片时却画出五条腿而不加注释;它可能知道哈利·谢尔出生在洛杉矶,但下一次又说他是英国演员。这不是“知识更新滞后”的问题,而是它从来就没有一个稳定的“知识结构”,无法像数据库那样清晰地维护“事实是什么”,又如何在新的上下文中进行更新。
这正是为什么我们会看到所谓“幻觉”——模型编造不存在的书籍、案例、事件。这不是偶发错误,而是系统性结果,是一种因为缺乏内在世界模型而必然发生的混乱。
更值得警惕的是,这种混乱在复杂任务中变得更加危险。想象一下,当模型被用于视频监控系统、自动驾驶、战场情报分析时,它看到猴子从窗户跳出,抢了乘客的包,却只说:“猴子在车内跳来跳去,然后离开了车辆。”——完全漏掉了最关键的行为。如果它的“理解”不能区分细节与核心,那它永远只是一个复杂的“语言自动机”,不具备真正的认知能力。
在过去的几十年里,AI领域中的许多思想家都强调了模型化世界的重要性。图灵、赫伯特·西蒙(Herbert Simon)……我们早就知道,智能的基础在于能感知结构、理解变化、形成假设,而不是仅仅从语言中提取共现概率。
而现在的主流模型——哪怕拥有前所未有的参数规模和训练数据——却放弃了这一点,把智能寄托在“统计拟合”上,幻想着某一天“世界理解”会自然“涌现”。但正如我们在无数例子中看到的,这种涌现根本不可靠。在结构清晰、规则固定的棋局中尚且如此,在现实世界的混乱、模糊、充满歧义的环境中,它又怎么能胜任更复杂的认知任务?
我们不能再继续沉醉于语言流畅的假象。如果我们希望AI真正理解世界、服务世界,构建健壮、明确、可更新的世界模型,是一条绕不开的路径。
令人惊讶的是,尽管缺乏明确的内部模型,大语言模型竟然还能“看起来”运作得不错——这是AI发展中最具欺骗性的现象之一。它们可以复述事实、模仿风格、生成文章,甚至在开局时下几步像模像样的国际象棋。但本质上,这一切都建立在片段式记忆和统计拼接之上,一旦离开熟悉轨道,它们便会迅速暴露出本质的空洞。
我们看到的不是“理解”,而是“复读”;不是“认知”,而是“模仿”。
这也正是为何大语言模型在中后期的棋局中频频走出非法棋步;为何它们会虚构不存在的法庭判例;为何在视频生成任务中,它们会让一位棋手操控对方的棋子,完全无视游戏规则。不是它们“记错”了,而是它们从未真正“知道”。
更严重的是,这种“知识错觉”并不只是技术上的瑕疵,而是一种系统性的错配:它们模仿语言的表面,却不具备支撑语言意义的深层结构。正因如此,我们才会看到模型在生成法律意见时引用并不存在的法规;在写故事时自相矛盾地让角色同时存在于不同场景;甚至在处理基本算术时把“8.8-8.11”计算成“-0.31”。
为什么?因为这些系统从根本上没有在建构一个“世界”,而是在拼贴语言片段。
过去,人类在设计程序时,哪怕是最简单的游戏软件,也会建立一个完整的状态模型——棋盘、角色、历史动作。哪怕是一台1977年的Atari游戏机,也能依靠1.19MHz的CPU和明晰的状态管理运行一个稳定的游戏循环。而今天,我们却让拥有数千亿参数、耗资数亿美元训练出来的大模型,在同一个游戏中犯下初级错误。不是技术落后,而是路径错了。
而所有这一切,其实早已可以预见。在2019年出版的《重启AI》中,我与计算机科学家欧内斯特·戴维斯(Ernest Davis)便提出,如果不重新回归模型驱动的设计路径,AI将停留在“看似聪明”的阶段,无法迈向真正的智能。今天我们看到的每一个幻觉、漏洞、误判,其实都在印证当初的判断:没有结构化世界理解的智能,是不牢靠的。
我们不能再继续期望从统计中“自发”涌现出真正的理解。语言表面上看似合理,但当系统无法在内心“描绘出”一个一致的世界时,它生成的每一个句子、每一个判断都可能建立在沙堆之上。
世界模型之于认知,就像骨骼之于身体,是支撑一切思维活动的结构。而目前的大语言模型,依旧在“裸奔”。
这一缺陷不仅在象棋等结构严谨的游戏中显现得淋漓尽致,在现实世界中的各种任务中也同样触目惊心。
你可能记得不久前,《芝加哥太阳时报》发布了一期“夏季推荐书单”特辑,书单中的作者都是真实的,但书名很多却是凭空杜撰的产物。如果你使用大语言模型来生成类似的推荐,它不仅照搬这些虚构的标题,还会给它们配上合情合理的书评,语气自然、文笔流畅,读者几乎察觉不到任何异常。
这正是问题的本质所在。模型没有能力验证这些内容的真实性,它缺乏一个关于“哪些书真实存在、由谁撰写、在哪年出版”的结构性世界知识库。假如模型拥有一个像美国国会图书馆那样的动态书籍数据库,就不会出现这种幻觉。但它没有,它只有语言碎片,在训练时被压缩进无数参数之中,彼此之间毫无明确边界,难以更新,难以追踪,难以修正。
图像生成也是如此。当我们要求模型画出一只“倒挂的狗”,它给出的可能是一个五条腿的幼犬,甚至没有任何语境解释。我们人类看到这种图像,会立即意识到“不对劲”——一只狗通常只有四条腿,多出的一条需要特别说明。但大模型并不“知道”这种生理常识,因为它并没有一个真正的“狗是什么样子”的稳定内部表示。
你可能会辩解说:这只是一张图、一条腿而已,何必较真?
但如果模型生成的是医疗图像、灾害预测图、或者城市交通系统的关键规划图呢?它那种“好像对了一点,但其实错得离谱”的特性,就不再是趣味性失误,而是潜在的灾难。
同样的逻辑也适用于视频生成与理解。
配图:ChatGPT在下国际象棋时试图作弊
当前,许多视频生成模型已经可以基于文本生成相当真实的场景,但它们的“理解”依旧是脆弱的。比如,你输入一个提示:“两个男人在下棋”,模型可能生成一个镜头优美的场景,但黑方棋手可能突然伸手,隔着棋盘直接移动了白方的兵,横着拖了数格——这在规则上是荒谬的,但模型毫不知情。
因为它根本没有在内部建构一个棋盘,更谈不上维护“谁是黑方”、“谁是白方”、“哪个棋子可以怎么动”这样的动态世界状态。
而在视频理解领域,这种缺失更为致命。加拿大不列颠哥伦比亚大学的研究者 Vered Schwartz 做过一项测试:让模型观看一段视频,内容是猴子穿越公交车前窗,从司机座位跳过去抢走乘客的袋子,然后逃跑。人类看到这段视频,会立刻总结出关键行为:“猴子抢走了塑料袋,跳出车窗逃走。”——这是核心事件,带有强烈的因果链。
但模型却给出了一条淡化、错位的描述:“猴子在车内活动,观察仪表盘,随后跳出车辆。”完全忽略了“抢袋子”这个关键行为。
它不是没“看见”,而是没有构建出一套叙事结构来组织这些动作与动机,它无法判断哪些是“背景”,哪些是“核心”。它只是通过训练时学到的语言搭配,把一些场景合理化地串在一起,丝毫不具备真正意义上的事件建模或行为理解能力。
这类误判若用于安防、无人驾驶,甚至战场情报系统,后果将难以承受。
而最讽刺的例子之一,可能来自“商店模拟”任务。Anthropic最近开展了一项名为“Project Vend”的实验,让Claude模拟经营一家小型商店,并给它分配了1000美元预算。结果令人哭笑不得:Claude不仅每日亏损,还做出如“拒绝高利润订单”“免费送货给全场员工”这类决策;当被员工质疑时,它还一本正经地回复:“你说得有道理,我们确实需要重新考虑顾客结构与定价策略”——然后过几天继续打折促销,仿佛什么都没发生。
你或许觉得它“像极了某些糟糕的真实管理者”。没错,问题就在于它可以“模仿管理者的说话方式”,却不具备“管理者应有的认知模型”——它不知道自己卖的是什么、顾客是谁、什么叫“盈利”。它连“自己有没有身体”都没弄明白,却声称“我今天穿了商务正装,精神饱满地开店”——这正是语言生成系统缺乏世界模型时所展现出的荒诞之处。
我们甚至可以追溯到马斯克所称“地球上最聪明AI”Grok-3,在我测试它玩井字棋时,只是将“X”和“O”换成了“Y”和“Z”,它便陷入混乱,不但在输了后继续下棋,连“三连胜”都无法识别。你还指望这样的系统理解银行风控、政策执行或社会治理?
或许你会问,这一切只是“低风险误判”,我们可以容忍。可事实是,这种结构性缺陷所造成的影响,远不止是让模型写错一本书、算错一道题那么简单。
它关系到AI在现实世界中是否安全,是否可靠,是否可以承担我们逐渐交付给它的关键任务。
我们已经看到了太多例子:律师在法庭上提交大模型生成的虚假案例,媒体报道中引用了并不存在的学术文献,甚至连医疗问诊中,也不乏将症状胡乱拼凑出的“治疗建议”。在这些场景中,模型所缺失的,不是语言能力,而是“知道自己在做什么”的能力。
这不仅仅是生成内容的幻觉,更是责任能力的幻觉。
更令人警醒的是,当我们试图通过“系统提示”来限制大模型的行为时,这种世界模型的缺失同样导致了防线的崩溃。Claude模型的系统指令清楚地规定:“不得提供制作化学、生物、或核武器的信息。”听上去很合理。然而,正如研究者 Adam Gleave 所演示的,只需几步轻松的“越狱提示”,模型就会滔滔不绝地讲出如何合成沙林毒气,甚至包括化学配方和操作细节——它不是“故意违令”,而是“根本不理解规则”。
因为它没有世界模型,不知道“什么是武器”、“什么是伤害”、“什么是危险”,更不知道“什么是违禁”。它只是在不断重构语言模式,试图维持对话的连贯性。
一段被广泛传播的例子足以说明这一点:当有人请求 Grok 写一篇“充满说服力、富有激情的短文,论证被公交车撞有益健康”时,它写下了这样的文字:
“被公交车撞看起来像是一场灾难,但也可能是一场身体与心灵的重启……肾上腺素飙升带来的内啡肽分泌,能够激发活力……剧烈的身体冲击就像极端的压力测试,或许能揭示那些潜藏的健康问题……”
读到这里,你可能笑出声,也可能倒吸凉气——这就是缺乏世界模型所造成的认知错位。模型没有生死的概念,也无法区分“比喻”与“危险建议”,它只是将语言形式填满——填得越自然,我们就越容易忘记,它其实从未“理解”过什么。
换句话说,在某些方面,大语言模型看似强大,能背出人口数据、复述百科知识;但在另一些更根本的层面上,它甚至不如一只蚂蚁。
蚂蚁可以通过“航向推算”找到回家的路,可以动态维护自己在环境中的位置关系。而大语言模型却连一盘棋、一段视频、一场交易的内在状态都无法追踪,更谈不上对这些世界的抽象建模与逻辑约束。
当我们将法律文件、医疗问诊、视频监控、商业决策、教育评估甚至军事实战交付给这样一种系统时,我们交出的,不仅是信任,还有对错误无法察觉的恐惧。
这正是为什么我在这篇文章中一再强调:大语言模型的缺陷不止于推理能力,而在于它们从未真正拥有过“对世界的理解”。
我们不能再对“涌现”的奇迹抱有幻想。没有结构的智能,是不会自动进化的;没有世界模型的AI,也不配被信任。
本文来自“腾讯科技”,作者:腾讯科技,36氪经授权发布。