北京时间 6 月 13 日 00:30 消息,AMD Advancing AI 2025 正式开启,AMD 董事长兼首席执行官苏姿丰博士同公司高管、AI 生态系统合作伙伴、客户、开发人员,共同讨论了 AMD 的产品和软件将如何发展人工智能生态和高性能计算 (HPC) 领域的格局。
在本次大会上,AMD 全面展示了“端到端”的集成人工智能平台发展愿景,并推出了面向 AI 的可扩展机架级基础设施产品组合。
首先,AMD 推出了全新一代 Instinct MI350 系列 GPU,在生成式人工智能和高性能计算领域实现了性能、能效与可扩展性的全方位提升。
Instinct MI350 系列包括 MI350X 和 MI355X 2 款 GPU 产品。在性能方面,较上一代产品实现了每代 4 倍的 AI 计算能力提升和 35 倍的推理性能飞跃,此次全新发布的 Instinct GPU 基于 AMD CDNA 4 架构,3nm 制程工艺打造,集成了 1850 亿个晶体管,支持 FP4 & FP6 新一代 AI 数据类型,可提供 288GB HBM3E 显存,支持单 GPU 上运行高达 520B 参数的 AI 模型,支持 UBB8 行业标准 GPU 节点,可以帮助企业实现快速部署基础设施。
AMD Instinct MI355X GPU 在 AI 和高性能计算领域都有着出色的表现。据 AMD 的介绍,在与 NVIDIA B200 和 GB200 的对比中,MI355X 的显存约为竞品的 1.6 倍,内存带宽则基本持平。针对 FP64 和 FP32 运算,MI355X 的峰值性能领先优势达到了竞品的 2 倍。对于 FP16 和 FP8 运算,其峰值性能与竞品相当或略有胜出,而 FP6 的性能则也达到了竞品 2 倍以上。此外,在 FP4 运算上,MI355X 与竞品的峰值性能相近。而在性价比方面,另外相比 B200,采用 Instinct MI355X 的企业或开发者可获得 40% Tokens/$ 性价比优势。
相较于上一代的 MI300X ,MI355X 运行 Llama 3.1 405B 时,其智能体性能是前者的 4.2 倍,“内容生成能力”是上一代( MI300X)的 2.9 倍,“摘要生成”能力是上一代( MI300X)的 3.8 倍,“对话式人工智能”性能表现则为上一代( MI300X)的 2.6 倍。
AMD Instinct MI350 系列构建基于开放标准的机架级 AI 基础设施,支持高密度扩展与先进网络互联。
AMD Instinct™ MI350 系列平台采用开放标准设计,全面支持 UEC(Universal Baseboard for Edge Computing)与 OCP(Open Compute Project)规范,构建面向下一代 AI 工作负载的高性能机架级基础设施。该系列结合了 Instinct MI350 系列加速器与第五代 AMD EPYC™ x86 处理器,支持多种规模配置选项,包括搭载 128、96 或 64 颗 GPU 的系统,分别集成高达 36TB、27TB 和 18TB 的 HBM3E 高带宽内存资源。平台在 FP8、FP6 和 FP4 等多种精度下均具备卓越的 AI 运算能力,可满足大规模模型训练、推理与部署需求,特别适用于超大规模数据中心与云端 AI 集群的横向扩展。相关系统方案预计将于 2025 年第三季度起,通过 AMD 合作伙伴生态体系全面推出。
AMD 预告下一代 AI 机架架构“Helios”,引领未来高性能计算基础设施发展
在 Advancing AI 2025 活动上,AMD 预告了其下一代机架级 AI 系统架构“Helios”,该架构将集成多项先进计算组件,进一步拓展高性能 AI 基础设施的边界。Helios 架构将采用即将发布的 AMD Instinct MI400 系列 GPU、基于“Zen 6”微架构的 AMD EPYC “Venice”处理器,以及 AMD Pensando “Vulcano”智能网卡,构建具备高带宽、高互联与高能效特性的开放式平台,旨在满足下一代大规模 AI 模型的训练与部署需求。
AMD 预览下一代“Helios”机架级 AI 架构,搭载 Instinct MI400 加速器与 Zen 6 平台,面向 2026 年全面部署、
与此同时,AMD 也向大家预览了 Instinct MI400 系列加速器的核心规格,该系列预计将于 2026 年正式推出。MI400 将配备高达 432GB 的 HBM4 高带宽显存,实现 19.6 TB/s 的显存带宽与每卡 300 GB/s 的扩展互联带宽。在 AI 运算能力方面,MI400 系列提供高达 40 PFLOPS(FP4 精度)和 20 PFLOPS(FP8 精度)的峰值性能,进一步巩固 AMD 在生成式 AI 和高性能计算领域的技术领先地位,延续 MI300X 与 MI325X 平台在能效、规模与灵活性方面的优势。
全新 ROCm 7 发布!助力开发效率提升,加速 AI 应用落地
在硬件产品稳步发展的同时,最新版本的 AMD 开源 AI 软件栈 ROCm 7 也受到了科技行业和开发者们的关注。全新的 ROCm 7 其旨在满足生成式人工智能和高性能计算工作负载不断增长的需求。并在整体功能与生态兼容性上实现全面增强。新版本带来对主流行业标准 AI 框架的更强支持,显著扩展硬件适配范围,并引入全新开发工具链、驱动程序、API 与加速库,进一步优化开发者体验,加速 AI 应用的开发、调试与部署流程。
AMD Developer Cloud 面向全球开发者全面开放,助力高效 AI 开发与无缝扩展
最后,AMD 宣布将进一步扩大 AMD Developer Cloud 的可用性,面向全球开发者与开源社区开放访问权限。该平台专为快速、可扩展的高性能 AI 开发而打造,提供完全托管的云端环境,集成丰富的开发工具与资源,支持用户快速启动 AI 项目并实现灵活扩展,满足从原型验证到大规模部署的全流程需求。通过 AMD Developer Cloud 搭配 ROCm™ 7 软件栈,AMD 正在持续降低 AI 计算门槛,加速创新落地。
IT之家 6 月 13 日消息,AMD 在北京时间今日凌晨 00:30 举办了其年度人工智能直播活动 Advancing AI 2025,AMD 董事长兼首席执行官苏姿丰同其它高管以及 AI 生态系统合作伙伴、客户、开发人员一起,共同讨论了 AMD 的产品和软件如何重塑 AI 和高性能计算(HPC)格局。
在本次大会上,AMD 展示了其全面的端到端集成人工智能平台愿景,并推出了全新基于行业标准的开放、可扩展的机架级人工智能基础设施产品。
首先,AMD 推出了全新一代 Instinct MI350 系列 GPU,在生成式人工智能和高性能计算的性能、效率和可扩展性方面得到全面提升。
Instinct MI350 系列包括 Instinct MI350X 和 MI355X GPU 及平台,实现了每代 4 倍的 AI 计算能力提升和 35 倍的推理性能飞跃。
新的 GPU 基于 AMD CDNA 4 架构,3nm 制程工艺打造,集成了 1850 亿个晶体管,支持 FP4 & FP6 新一代 AI 数据类型,可提供 288GB HBM3E 显存,支持单 GPU 上运行高达 520B 参数的 AI 模型,支持 UBB8 行业标准 GPU 节点,提供风冷和直液冷两种版本,可以帮助企业实现快速部署基础设施。
AMD Instinct MI355X GPU 在 AI 和 HPC 领域性能有出色表现,根据 AMD 的介绍,在与 NVIDIA B200 和 GB200 的对比中:
在内存容量方面,MI355X 约为竞品的 1.6 倍,内存带宽则基本持平。
针对 FP64 和 FP32 运算,MI355X 的峰值性能接近竞品的两倍。
对于 FP16 和 FP8 运算,其峰值性能与竞品相当或略高,FP6 性能则达到 2 倍以上。
在 FP4 运算上,MI355X 与竞品的峰值性能相近,小幅领先。
另外相比 B200,使用 Instinct MI355X 可获得 40% Tokens/$ 性价比提升。
而在和上一代 MI300X 的对比中,MI355X 运行 Llama 3.1 405B 模型,在 AI 智能体性能表现上是前者的 4.2 倍,内容生成能力是上一代 MI300X 的 2.9 倍,摘要能力是上一代的 3.8 倍,对话式人工智能表现则为 2.6 倍。
AMD 表示,Instinct MI350 系列超出了 AMD 设定的五年目标,即将 AI 训练和高性能计算节点的能效提高 30 倍,最终实现了 38 倍的提升。
AMD Instinct MI350 系列提供基于开放标准的机架基础设施和网络解决方案。
该系列产品支持 UEC、OCP 设计,搭载 Instinct GPU 与第五代 EPYC x86 CPU,不同配置包括 128 颗 GPU、96 颗 GPU 和 64 颗 GPU,分别具备 36TB、27TB 和 18TB HBM3E 内存,性能指标涵盖 FP8、FP6 和 FP4 精度,适用于大规模机架扩展方案,预计从 Q3 开始通过 AMD 解决方案合作伙伴提供相关产品。
IT之家从活动获悉,AMD 还预告了其下一代 AI 机架架构“Helios”。它将基于下一代 AMD Instinct MI400 系列 GPU、基于“Zen 6”架构的 AMD EPYC “Venice” CPU 以及 AMD Pensando “Vulcano”网卡构建。
同时 AMD 更预告了 Instinct MI400 系列 GPU,预计 2026 年上市。该系列配备 432GB HBM4 显存,带宽达 19.6TB/s,每 GPU 扩展带宽为 300GB/s;提供 40PF FP4 和 20PF FP8 的 AI 计算性能,延续 MI300X、MI325X 等系列优势。
AMD 还公布了一个新的 2030 年目标,即从 2024 年基准年起,将机架级能效提高 20 倍,届时,现在需要超过 275 个机架才能训练的典型 AI 模型,在 2030 年时仅需一个完全利用的机架即可完成训练,同时耗电量减少 95%。
此外最新版本的 AMD 开源 AI 软件栈 ROCm 7 也受到了不少网友的关注,其旨在满足生成式人工智能和高性能计算工作负载不断增长的需求 —— 同时全面提升开发者体验。ROCm 7 具有改进的行业标准框架支持、扩展的硬件兼容性以及新的开发工具、驱动程序、API 和库,以加速 AI 的开发和部署。
最后值得一提的是,AMD 将为面向全球开发者和开源社区的 AMD 开发者云带来更广泛的使用权限。该平台专为快速、高性能的 AI 开发而构建,用户在 AMD 开发者云上将能够访问一个完全托管的云环境,包括拥有启动 AI 项目所需的工具和灵活性,并能够无限制扩展。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。