DeepSeek R1 性能提升 3.8 倍,AMD 发布下一代开源软件栈技术 ROCm 7

DeepSeek R1 性能提升 3.8 倍,AMD 发布下一代开源软件栈技术 ROCm 7

4.8
0热度

IT之家 6 月 13 日消息,在今日凌晨的 AMD Advancing AI 2025 活动中,AMD 正式推出其下一代开源软件栈技术 ROCm 7,进一步加速 AI 与开发者生产力。随着 ROCm 7 的发布,AMD 终于从其 ROCm 6 软件栈向前迈进,该软件栈在过去几年中 —— 尤其是在 AI 计算出现以来 —— 已经经历了多次更新。以下是 AMD 在 ROCm 7 中重点关注的一些功

IT之家 6 月 13 日消息,在今日凌晨的 AMD Advancing AI 2025 活动中,AMD 正式推出其下一代开源软件栈技术 ROCm 7,进一步加速 AI 与开发者生产力。

随着 ROCm 7 的发布,AMD 终于从其 ROCm 6 软件栈向前迈进,该软件栈在过去几年中 —— 尤其是在 AI 计算出现以来 —— 已经经历了多次更新。以下是 AMD 在 ROCm 7 中重点关注的一些功能:

  • 最新算法与模型

  • 用于扩展 AI 的高级功能

  • MI350 系列支持

  • 集群管理

  • 企业级功能

通过 ROCm,AMD 表示其正更加专注于其软件堆栈中日益增长的推理能力。ROCm 7 堆栈将包括增强型框架,如 vLLM v1、llm-d、SGLang,并专注于提供多种优化。即将到来的 ROCm 7 新内核和算法包括 GEMM 自动调优、MoE、Attention 和基于 Python 的内核编写。

AMD 已宣布对其 MI350 系列提供 FP6 和 FP4 支持,ROCm 7 也包含对这些高级数据类型的全面支持,如 FP8、FP6、FP4 和混合精度。

IT之家从发布会获悉,在性能方面,AMD 表示 ROCm 7 将推理作为重点,为 AI 工作负载带来了高达 3.5 倍的性能提升

具体来看,相较于 ROCm 6,ROCm 7 的 Llama 3.1 70B 提升了 3.2 倍,Qwen2-72B 提升了 3.4 倍,DeepSeek R1 提升了 3.8 倍

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

首页 发现
看过 我的