20人团队提前实现DeepSeek构想，AI算力变天？直击大模型算力成本痛点

如果有一种芯片，天生只为大模型而生，能否突破当前AI的算力瓶颈？

要知道，如今的芯片算力，强依赖于制程、工艺等非芯片设计因素。

这是因为，传统通用型的GPGPU计算架构在应对日益庞大的模型和复杂计算时，其硬件固有的局限性日益凸显。

通用图形处理器（General-Purpose Graphics Processing Unit，GPGPU）

在这样的背景下，学术界和产业界都在积极探索新的更针对AI大模型痛点的架构方案。

近期，来自DeepSeek最新一篇论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》，梳理了用户视角下当前大模型训练与推理中所面临的具体技术挑战，以及对后续AI硬件发展的构想。

论文地址：https://arxiv.org/pdf/2505.09343

与此同时，国内团队玉盘AI的SRDA系统级数据流计算架构方案也浮出水面，意图从硬件源头解决当前AI算力的核心瓶颈。

不少玉盘SRDA在做的事情和DeepSeek构想相似，SRDA在当前节点推出，或某种程度较好集合了业界关于下一代AI硬件的共识。

玉盘核心班底目前仅20余人，平均年龄仅30+，让人不禁联想到硅谷AI芯片明星创企Etched——三名哈佛大学学生创办，流片时团队规模仅35人。

可以说，玉盘团队无疑是AI时代精简团队挑战大象的又一范例，也颠覆了大众对芯片公司规模的传统观念。

Etched芯片是针对Transformer架构做推理ASIC，玉盘SRDA则是精简但可重构的数据流架构，对Transformer、Diffusion、Mamba、MoE等都可支持模型训练与推理。

Etched Sohu：号称世界上第一个专用LLM计算的集成电路

同时，笔者也了解到，早在2023年大模型爆发前，玉盘原班底便开始研究I/O融合技术，并在2023年就发布了eSPU AI Hub方案，结合最近DeepSeek论文对比看，简直是AI基础设施版的「我预判了你的预判」。

这，或许就是他们敢于现在就全面开源自己底层的架构思路的底气。

本文将审视玉盘团队白皮书中SRDA架构的核心特性，探讨其设计思路如何针对AI算力基础设施的若干关键问题提供可能的解决路径。

项目地址：https://github.com/moonquest-ai/SRDA

让我们看看，国内的创新硬件团队已经思考到了什么层面，是否和DeepSeek这样高级玩家的所需契合。

大模型凶猛：AI算力面临「N重门」

在探讨SRDA架构之前，有必要先梳理其试图应对的模型挑战，也是DeepSeek论文指出的主要行业痛点：

内存容量不足：模型规模增长迅速，以HBM为代表的内存容量增长缓慢。为了缓解这个问题，DeepSeek采用了低精度计算和MLA两种手段，大幅削减模型参数和KV Cache的存储需求。
内存带宽短缺：尽管芯片的理论峰值算力不断提升，但由于模型规模增速远超内存带宽增速，在许多实际AI应用场景中，计算单元大部分时间可能因等待数据而闲置，未能充分发挥其计算潜力。
计算精度不支持：采用低精度计算能够大幅提高训练和推理的性能，但为了保证模型能力不受影响，需要采用高精度累加和细粒度的量化，纯软件实现的难度较高，也会导致额外的开销。
集群扩展难：随着模型规模的指数级增长，分布式训练和推理成为常态，这要求在集群层面进行高效扩展。然而，目前常见的节点内互联（scale-up，如NVLink）和节点间互联（scale-out，如Infiniband）往往采用不同的技术标准和硬件，这不仅增加了系统优化和管理的复杂度，也可能引入额外的通信延迟，影响整体扩展效率。
PCIe总线带宽竞争：现有架构下，节点间通信和节点内GPU与CPU之间的数据传输（如KV Cache）共享PCIe总线，存在竞争。通信被影响会导致难以预测的性能下降，影响系统整体性能。

SRDA架构：打造AI计算新范式

这些痛点，是否有解决之道？

玉盘团队，从根本上找到了解决问题的思路。

根据团队公开的技术白皮书，SRDA架构的核心理念被描述为回归AI计算的本质——即高度结构化的数据流动和变换。

这个设计目标，似乎并非对现有架构的简单改良，而是尝试进行更根本性的调整。

其关键设计哲学据称包括：

数据流驱动 (Dataflow Driven)：与传统GPGPU的控制流架构不同，SRDA将数据流置于核心地位。其硬件设计旨在直接映射AI计算图，使数据在计算单元间高效流转，从而期望大幅减少对内存的反复访问和不必要的数据搬运。

系统级数据流：当数据流驱动与融合互联相结合，玉盘SRDA将数据流理念放到了整个数据中心层面，与过往数据流架构仅在芯片层面实现很不一样，当所有SRDA芯片都做到all-to-all全互联，整个数据中心会类似一台电脑运转。这是玉盘SRDA架构最引人瞩目的地方，最终让整个数据中心形成一条数据流，这将给大规模并行训练或大规模集群推理带来全新的硬件支撑，值得模型用户关注。

3D堆叠高带宽内存：为了支持其数据流驱动的设计，SRDA计划采用3D堆叠工艺，将大容量、高带宽内存直接集成在计算芯片之上，目标是从硬件层面缓解「内存墙」的压力。

精简高效：作为一种AI专用架构 (AI-DSA) 的设计思路，SRDA旨在剥离通用处理器中可能对AI计算冗余的复杂控制逻辑，将硬件资源聚焦于AI核心运算，以期提升面积效率和能源效率。

融合高速互联：与英伟达互联方案中NVLink + IB双层互联网络不同，SRDA架构构建统一的片内、片间至节点间高速互联网络。DeepSeek论文中也提到了I/O融合、甚至把I/O做进算力芯片内部的思路，玉盘已经在把这一构想变为现实。玉盘进一步构建独立通信引擎，从硬件层面实现计算与通信解耦，这将进一步减轻软件层用户的硬件优化负担。