在 Transformer 问世并统治大模型领域八年之后,亲手创造它的谷歌也有了另起炉灶的苗头。
上个月,谷歌产品负责人 Logan Kilpatrick 指出现有注意力机制的局限性,紧接着谷歌就推出了新架构 MoR。这些动作表明,AI 领域的「架构革新」已成为广泛共识。
在最近开幕的 WAIC 世界人工智能大会上,我们也看到了这种趋势,甚至国内企业的做法比谷歌的变革还要彻底。
视频中的这个灵巧手是由一个离线的多模态大模型驱动的。虽然模型只有 3B 大小,但部署到端侧后,无论是对话效果还是延迟几乎都可以媲美云端运行的比它要大得多的模型,而且它还拥有「看、听、想」等多模态能力。
重要的是,它并非基于 Transformer,而是基于国内 AI 创企 RockAI 提出的非 Transformer 架构 Yan 2.0 Preview。这个架构极大地降低了模型推理时的计算复杂度,因此可以在算力非常有限的设备上离线运行,比如树莓派。
而且,和其他在设备端运行的「云端大模型的小参数版本」不同,这个模型拥有一定的原生记忆能力,能够在执行推理任务的同时把记忆融入自己的参数。
也就是说,在和其他大模型对话时,你每次打开一个新的窗口,模型都不记得你们之前聊过什么,就像一个每天睡一觉就会把你忘了的朋友,每天都见但每天都是「初见」。相比之下,基于 Yan 架构的模型会随着时间推移越来越了解你,并基于这些信息去回答你的每一个问题。这是当前大多数基于 Transformer 的云端大模型都做不到的,更不用提被剪枝、蒸馏等手段破坏了再学习能力的「小模型」。
为什么 RockAI 要对 Transformer 进行如此彻底的变革?这些变革是怎么实现的?对于 AGI 的实现有何意义?在和 RockAI 的创始团队深入对谈后,我们得到了一份有价值的答案。
Transformer 火了那么久,RockAI 为什么要「另起炉灶」?
RockAI 对 Transformer 的挑战不是今年才开始的。其实早在 2024 年 1 月,他们就推出了 Yan 架构 1.0 版本,在此之前已经花了两年时间探索架构创新。
众所周知,Transformer 存在「数据墙」和「算力依赖」等问题。一方面,现有的大模型都是用海量数据进行预训练,但随着高价值数据获取难度越来越大,这条路变得越来越难走。另一方面,Transformer 模型的推理对算力要求非常高,如果不经过量化、裁剪等操作,模型很难在低算力设备上直接部署。而且,即使能够部署,这样的模型也很难再进行大的更新,因为反向传播所需的计算量非一般设备可以负荷,「训推同步」(即让模型在执行推理任务的同时还能进行学习和参数更新,就像小孩在和大人相处的过程中学习新东西)很难实现。而量化、裁剪等操作更是破坏了模型的再学习能力。
如此一来,设备端的 Transformer 模型就成了一个「静态」的模型,其智能水平在模型部署时就被锁死。
为了从根本上解决这些问题,RockAI 从一开始就走了一条非常彻底的变革路线,从 0 到 1 探索非 Transformer、非 Attention 机制的 Yan 架构。 更难能可贵的是,他们不仅快速找到了有效的技术路径,还成功在算力有限的设备上实现了商业落地。
Yan 2.0 Preview:全球首个拥有「原生记忆力」的大模型
下图展示了 Yan 2.0 Preview 与其他架构的效果与性能对比结果。从中可以看出,无论是相比于 Transformer 架构下的核心主流模型,还是非 Transformer 架构的新一代模型,Yan 2.0 Preview 在生成、理解以及推理等多个关键指标上都有不错的优势,这充分说明了 Yan 架构在「性能 / 参数」比(即效率)上的巨大优势。
当然,这还不是核心看点,毕竟在 Yan 1.3 的时候我们就已经见识过它惊艳的计算效率。这次的看点是「记忆」。
我们观察到,无论是最近的新论文、新产品还是公共讨论,「记忆」都在成为一个焦点 —— 它既被视为当前 LLM 的关键短板,也被看作下一轮 AI 应用的商业化落地突破口。想象一下,一个会说话、拥有和你之间专属记忆的 Labubu 在和你相处多年之后,是不是情感羁绊更深?
不过,在技术路线上,当前业内主要还是用一种「外挂」的方式(如长上下文叠加搜索引擎或 RAG)来帮大模型加长记忆。RockAI 并不看好这种方式,因为首先,它把信息作为一串序列来处理,没有真正的「时间」概念(这点对于随时间演进的真实学习至关重要),这和人类的记忆方式有着本质的区别。其次,它无法实现真正的个性化。
「回顾人类社会,每个人都拥有独特的记忆。人与人之间的差异正是源于不同的记忆和经验,这些差异最终形成了人类社会的多样性,塑造了我们各自不同的行为方式和表达风格。目前,我们使用的商业模型本质上都是云端的同一个模型,缺乏真正的个性化,只能通过调取聊天记录来提供上下文。这种模式存在明显局限 —— 比如在写作时,模型无法根据用户的个人风格来生成内容。」RockAI CEO 刘凡平指出。
他认为,只有在模型中融入原生记忆能力,这种情况才能发生改变。因此,他们的 Yan 2.0 Preview 选择了另一条路线 —— 将模型理解后的信息内化到神经网络的权重中,使其成为模型自身的一部分,这更接近生物的记忆方式。
下图是 Yan 2.0 Preview 架构示意图。它通过一个可微的「神经网络记忆单元」实现记忆的存储、检索和遗忘。
在原理上,这种机制与人工智能从早期机器学习到深度学习的演进有相似之处。早期机器学习需手动设计或提取特征,可解释性强,但定制化严重,对专家经验依赖度高。深度学习则可自动提取特征,通过设计神经网络、设定优化目标和策略,在数据语料上完成模型训练,实现端到端学习。与之类似,Yan 2.0 Preview 也实现了端到端的记忆,无需用户去手动管理外挂知识库(增删改查),使用起来更加便捷。
在现场,我们通过一个「现学现会」的机器狗感受到了 Yan 2.0 Preview 的原生记忆能力。在「聊天窗口」重开后,机器狗依然能记得它学过的动作和偏好。
当记忆深度融合进模型架构,它所带来的不再是短暂的「缓存」,而是一种具备时间维度、个性化特征和交互上下文的「智能积累」。这种模式成熟后,或将打破现有大模型依赖海量数据的学习范式。
模型角色也将随之转变 —— 从单纯的回答者,逐步成为用户思维与决策的延伸体,真正实现「长期陪伴、个性服务」。当这一能力在本地终端部署时,结合端侧的隐私保障与实时响应优势,设备便从被动工具蜕变为拥有感知、记忆和学习能力的「数字大脑」。
离线智能:「让世界上每一台设备拥有自己的智能」
每个尝试挑战 Transformer 的研究者,都深知这件事做成有多难。RockAI CTO 杨华表示, RockAI 之所以能坚持至今,背后是团队多年来所秉持的三个核心理念:
第一,他们认为,AI 应该是普惠的,不应只存在于云端。AI 必须与物理世界交互才能发挥最大价值,这要求它必须存在于设备上。这点已经成为业界共识,也是当前具身智能、空间智能等方向火爆的原因之一。
第二,从长远来看,一个真正的智能设备不应是静态的,而应能成长和进化。具备学习能力才能确保「个体」智能足够聪明。这点也在最近业界对「自我进化 AI」的讨论中得到了体现。不过,RockAI 强调,这种自我进化应该发生在「个体」设备上,而不是一个云端的大模型上。
第三,在「个体」变得足够聪明之后,它们所组成的网络有望涌现出群体智能,就像已经创造出如此璀璨文明的人类社会。RockAI 认为,群体智能是迈向通用人工智能(AGI)的关键路径。
这些理念落实到行动,就形成了 RockAI 当前的主要使命 ——「让世界上每一台设备拥有自己的智能」。
这个使命听上去很像「端侧智能」。但杨华强调说,他们追求的其实是「离线智能」,只使用本地设备的算力,不像很多采用「端云结合」的设备一样需要联网。而且在这种离线运行的模式下,模型能够实现自主学习,而不是部署的时候就被锁死。拥有这种自主学习能力的模型可以理解为一个有学习潜力的孩子,尽管刚走出家门时能力不及 30 岁的博士,但随着后续成长会变得越来越强。
不要小看这种「成长」的价值,未来的设备 PK 的可能就是这种能力。刘凡平提到,现在我们买硬件主要看配置,都是一次性买卖,买到手里就开始贬值。但有了记忆和自主学习能力之后,硬件的长期价值才开始显现,智能的程度和进化能力会成为硬件的差异化卖点。
此外,这种「成长」也为群体智能的涌现提供了可能 —— 只有当每台设备都具备自主学习能力时,它们才能真正实现知识共享、协同进化,最终涌现出超越单体智能简单相加的集体智慧,这也是 RockAI 的终极愿景。
从「质疑」到「共识」:RockAI 一直在做「难而正确」的事情
回顾过去几年的研发历程,RockAI 能够明显感觉到外界对他们所选择的技术路线的态度转变。
几年前,提到要做群体智能、要另起炉灶研发新架构,外界的反应更多是新奇、不解和质疑,因为这不像一个初创团队该做的事情。
这次原生记忆能力的展现,让大家看到了 RockAI 的与众不同。他们并非停留在简单的模型训练与参数堆叠层面,而是在坚持「难而正确」的技术路径上,以「记忆」为核心重新定义大模型的能力边界,带来了惊人的使用体验。
RockAI CMO 邹佳思说,这一技术路线的选择让他们在整个 WAIC 会场显得非常与众不同,很多对端侧部署、记忆能力有需求的硬件厂商来找他们了解技术方案。这些厂商也尝试过基于 Transformer 的模型,但体验明显没有满足需求。此外,还有一些厂商已经和 RockAI 达成了合作。非 Transformer 的 Yan 架构正在 AI 硬件市场扩散开来。
不得不承认,RockAI 几年前的决定非常有前瞻性,也用科研、商业化成果回应了外界的质疑。
杨华表示,未来,他们要继续做这件「难而正确」的事情。甚至为了实现更高效的自主学习能力,他们在持续向人工智能的根基 —— 反向传播算法发起挑战,目前的解决方案已经在小规模数据上完成了指标测试和训练收敛性验证,证明了方案的基本可行性。
在众多 AI 创业公司中,这种前瞻性和坚持自己道路的韧性非常少见,很像 OpenAI 等前沿实验室的来时路。毕竟在 Ilya 忙着扩大规模时,scaling law 也还没成为共识。从 RockAI 身上,我们看到了一种难能可贵的「长期主义」精神 —— 在浮躁的创业环境中,依然愿意花费数年时间去攻克底层技术难题,去验证那些看似「不切实际」的技术理念。
创新是孤独的,期待 RockAI 和更多探索者在这条路上走得更远。
文章来自微信公众号 “ 机器之心 ”