当AI讲解相对论比爱因斯坦还好使,还需要读书吗?

当AI讲解相对论比爱因斯坦还好使,还需要读书吗?

4.8
0热度

在人工智能领域,大型语言模型(LLM)的推理能力正以前所未有的速度发展。从年初 DeepSeek-R1、OpenAI o3、Qwen3 等推理模型的相继问世,我们见证了模型在复杂推理任务中一次次令人惊叹的表现,尤其是它们展现出的 “啊哈时刻”,仿佛让我们看到了模型接近人类思维的希望之光。今天,就让我们一同探索这些模型背后的奥秘,从推理图(reasoning graph)这一独特视角,深入理解它们

在人工智能领域,大型语言模型(LLM)的推理能力正以前所未有的速度发展。从年初 DeepSeek-R1、OpenAI o3、Qwen3 等推理模型的相继问世,我们见证了模型在复杂推理任务中一次次令人惊叹的表现,尤其是它们展现出的 “啊哈时刻”,仿佛让我们看到了模型接近人类思维的希望之光。今天,就让我们一同探索这些模型背后的奥秘,从推理图(reasoning graph)这一独特视角,深入理解它们卓越推理性能的根源。


两年前,当业界提出系统 2 慢思考的概念时,我曾思考如何将外部真实世界显性的复杂的思维链(如 CoT 或 long reasoning pattern)与模型内部隐空间(Latent Space)统一起来看待。当时提出过一个观点:不论模型经过何种 ground truth 有信号监督还是 RL(强化学习)自探索反馈训练方法,其外部任何显式的 step by step next token predict 所隐含于其中的规划、分解、反思等抽象 pattern,都能在模型内隐状态空间中找到神经元激活 pattern 的某种映射。这种映射或许是接下来所要介绍的这篇论文中所提及到的 “推理图”或“拓扑环”,亦或是其他隐状态空间可视化方法,而这也许就是模型具备系统 2 慢思考能力的奥秘。


推理图:打开模型 “思维黑箱” 的钥匙


当我们面对模型给出的精彩推理结果时,不禁好奇:在那复杂的神经网络背后,模型究竟是如何思考的?近日,来自东京大学联合Google DeepMind的研究者们的《Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties》这篇论文为我们提供了一个全新的视角 —— 推理图。它就像是模型思考过程的可视化地图。我们通过聚类模型在每个推理步骤中的隐藏状态表示,确定推理图中的节点。然后,将模型在推理过程中依次访问的节点连接起来,就构建出了这张展现模型思考路径的推理图。


解读大型推理模型的 “思维奥秘”:从“推理图”视角看模型的「啊哈时刻」


在数学任务中,推理图可以被形象地理解为从问题初始状态到最终答案状态所经过的各个简单计算状态所连成的路径,每个计算状态对应图中的一个节点。通过对推理图的分析,我们能够以一种直观且系统的方式,洞察模型在推理过程中的内部机制和行为模式,从而深入理解其推理能力的本质。


循环性:模型的 “反思” 与 “调整”


在对推理图的研究中,一个引人注目的发现是大型推理模型展现出显著的循环性。这些循环就像是模型在思考过程中的 “反思” 和 “调整” 时刻。与基础模型相比,蒸馏后的推理模型(如 DeepSeekR1-Distill-Qwen-32B)每个样本中平均多出约 5 个这样的循环。随着任务难度和模型容量的增加,这种循环性愈发明显。


解读大型推理模型的 “思维奥秘”:从“推理图”视角看模型的「啊哈时刻」


这种循环性暗示着模型在推理时并非一蹴而就,而是会像人类一样,频繁地回过头去重新审视之前的推理步骤,发现问题所在并进行修正。这种类似于人类 “啊哈时刻” 的自我修正能力,使得模型能够不断优化自己的推理路径,从而提高推理的准确性。试想,当模型陷入一个复杂问题的思考时,这些循环就像是它不断尝试、反思、再尝试的过程,最终在某个瞬间豁然开朗,找到正确的解答方向。


图直径:模型思考的 “广度” 与 “深度”


除了循环性,推理图的直径也是衡量模型推理能力的重要指标。研究发现,大型推理模型的推理图直径远大于基础模型,这表明它们在推理过程中能够探索更广泛的推理状态。模型的思考不再局限于狭窄的路径,而是能够触及更广泛的领域,深入挖掘问题背后的各种可能性。


解读大型推理模型的 “思维奥秘”:从“推理图”视角看模型的「啊哈时刻」


图直径的增大意味着模型具备了更广泛的思考范围,能够触及更远的知识节点,在复杂的推理任务中展现出更灵活的思维能力和更强的解决复杂问题的能力。这就好比一个博学的学者,他的思维能够在知识的海洋中自由驰骋,从不同的角度、不同的领域汲取灵感,从而更深入地理解问题并找到最佳的解决方案。


小世界特性:高效连接局部与全局知识


更令人兴奋的是,大型推理模型构建的推理图展现出显著更高的小世界特性,约是基础模型的 6 倍。小世界结构的独特之处在于,它既具有密集的局部聚类结构,又能通过少量的长程连接实现全局的高效连通。在模型的推理过程中,这种小世界特性发挥着至关重要的作用。


解读大型推理模型的 “思维奥秘”:从“推理图”视角看模型的「啊哈时刻」


一方面,密集的局部聚类结构使得模型能够深入挖掘局部知识,对问题的特定方面进行细致入微的分析;另一方面,少量的长程连接则为模型提供了快速切换和融合全局知识的能力。这种特性使得模型在推理时既能专注于细节,又能从整体上把握问题的关键,从而更高效地连接问题的不同部分,找到通往答案的最优路径。


模型规模与推理图:规模背后的能力提升


随着模型规模的不断增大,我们观察到循环检测率、循环计数以及推理图直径等指标呈现出不同的变化趋势。循环检测率先是在 14B 模型时达到峰值,而 32B 模型则在推理图直径上达到了最大值,并且与任务准确率呈现出正相关关系。


解读大型推理模型的 “思维奥秘”:从“推理图”视角看模型的「啊哈时刻」


解读大型推理模型的 “思维奥秘”:从“推理图”视角看模型的「啊哈时刻」


解读大型推理模型的 “思维奥秘”:从“推理图”视角看模型的「啊哈时刻」


这说明模型容量的增加为推理图结构的优化提供了坚实的基础。更庞大的模型能够容纳更复杂的推理图结构,从而支持更高级的推理过程。这就像是一座拥有更多房间和通道的建筑,能够为各种思维活动提供更广阔的舞台,让模型在复杂的推理任务中展现出更强大的能力。


监督微调:塑造推理图的有力工具


监督微调(SFT)被证明是塑造推理图结构的有效手段。通过在改进的数据集上进行监督微调,我们能够系统地扩大推理图直径,并且性能提升与推理图直径的增加同步。这为我们构建和优化用于推理任务的数据集提供了极具价值的指导。


当我们在设计数据集时,不仅要关注数据的数量和质量,还要考虑数据是否能够诱导模型产生具有更大直径和更多循环的推理图结构。通过精心设计的数据集,我们可以引导模型在推理过程中探索更广泛的路径,培养其反思和调整的能力,从而显著提升模型的推理性能。


系统 2 慢思考与推理图的关联


回顾两年前业界提出系统 2 慢思考的概念时,曾尝试思考并关注如何将外部真实世界中显性的复杂思维链(如 CoT 或 long reasoning pattern)与模型内部隐空间统一起来这一问题建立对推理模型更具直观和统一的认知视角,结合本论文中所提及的“推理图(reasoning graph)”正是对这一问题的有力探索。


系统 2 慢思考强调有意识、有逻辑的外部显式深度思考过程,这与推理图中所体现的循环结构和广泛探索行为相契合,模型内隐空间在基于“推理图”这种可视化方法中的循环可能对应着系统 2 思考中的反复斟酌、验证和调整思路的过程,而较大的图直径则可能反映了系统 2 思考中对问题不同方面和相关知识的深入挖掘与广泛联想。


隐状态映射与推理图可视化


先前自己曾经的观点认为,不论模型基于ground truth的有信号监督、蒸馏 SFT 还是 RL 自探索奖励反馈训练方法,外部显式的逐步推理所隐含的规划、分解、反思等抽象pattern,都能在模型内部隐状态空间中找到神经元激活模式的映射。结合本论文中的推理图构建方法也可以说正是对这种映射的一种可视化手段。


通过将隐藏状态聚类形成节点,并构建推理图,我们可以将模型内部复杂的神经元激活模式转化为直观的图结构,进而分析其与推理性能的关系。我想,这种可视化方法为我们深入理解模型的内部推理机制提供了新的视角和工具,使我们能够更直接地观察模型在推理过程中的行为和特点,从而为进一步优化模型的推理能力提供依据。


结语


在这个人工智能飞速发展的时代,《Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties》这篇论文为我们打开了一扇通往模型思维世界的大门。从循环性的 “反思” 与 “调整”,到图直径所代表的思考 “广度” 与 “深度”,再到小世界特性所赋予的高效连接局部与全局知识的能力,这些大型推理模型正以一种前所未有的方式,展现着它们强大的推理力量。相信随着时间推移和技术的不断进步,我们会有更多更先进的理论和工具去探索大型推理模型的奥秘,进一步推动人工智能领域的发展。


另外,尽管该论文取得了重要成果,但仍存在一些局限性。例如,虽然提出了推理图的构建和分析方法,但对于如何根据推理图的属性来直接构建具有更优推理性能的模型,尚未给出足够具体的指导。我想未来的研究可以从以下几个方向展开:


一 是进一步深入挖掘推理图亦或其它模型隐空间可视化方法所表现出的更广泛的潜在属性和特性,以更全面地理解模型的推理机制,比如之前来自清华《TTRL: Test-Time Reinforcement Learning》这篇和来自谷歌DeepMind的《Boundless Socratic Learning with Language Games》这篇论文中所隐含的模型内隐状态空间所具备的自演进能力的洞察。


解读大型推理模型的 “思维奥秘”:从“推理图”视角看模型的「啊哈时刻」


以及近期引起火热争论的那篇来自UW/UC的《Spurious Rewards:Rethinking Training Signals in RLVR》论文中关于对 “Lucky” Spurious Rewards 的解释。


解读大型推理模型的 “思维奥秘”:从“推理图”视角看模型的「啊哈时刻」


二 是探索如何基于推理图或其它模型隐空间可视化方法的分析结果,设计出更有效的模型架构和训练算法,以更直接地提升模型的推理能力,比如模型结构如transformer方面的创新、对不同modality data所采用的不同概率建模方法(AR/Diffusion..)的指引。


三 是结合认知科学和神经科学的相关理论和方法,从更广泛的学科交叉角度来研究和优化模型的推理过程,使模型的推理能力更接近人类的智能水平。


综上所述,《Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties》这篇论文通过构建和分析推理图,为揭示大型推理模型的内部工作机制提供了有力工具和重要见解。结合系统 2 慢思考等相关研究思路,我们有理由相信,对模型内部推理模式的深入探究将不断推动自然语言处理领域在复杂推理任务方面取得更大突破,为实现更具人类水平智能的人工智能系统奠定坚实基础。


文章来自于微信公众号“塔罗烩”,作者是“吕明”。


首页 发现
看过 我的