2025年6月2日,人工智能芯片公司 Cerebras Systems 宣布,其推理 API 现已对所有开发者全面开放,取消了此前的等待名单限制。这一举措标志着 Cerebras 在加速生成式 AI 应用开发方面迈出了重要一步,为全球开发者提供高效、快速的 AI 推理服务。
据 Cerebras 官方声明,开发者每日可免费获得100万个 Token 的使用额度。这一免费配额为开发者提供了充足的资源,用于构建和测试基于 Cerebras 推理平台的高性能 AI 应用。
Cerebras 表示,其推理 API 在速度上显著优于传统 GPU 解决方案,推理速度可达 GPU 的20倍,尤其在实时语音、视频处理、复杂推理模型以及代码生成等场景中表现出色。测试数据显示,Cerebras 的推理服务在运行 Llama4Scout 模型时,可实现每秒超过2600个 Token 的生成速度,远超其他基于 GPU 的 API 提供商。
Cerebras 的推理 API 支持多种主流开源模型,包括 Llama4和 Qwen3-32B,开发者可通过简单的 API 调用快速集成这些模型。此外,通过与 Hugging Face 和 Meta 等平台的合作,Cerebras 推理 API 已无缝嵌入这些生态系统,进一步降低了开发者的使用门槛。例如,Hugging Face 的500万开发者只需在平台上选择 Cerebras 作为推理提供商,即可直接体验其超高性能。
Cerebras 首席执行官 Andrew Feldman 表示:“我们致力于为开发者提供最快的 AI 推理服务,让他们能够更高效地构建实时、智能化应用。开放 API 并提供每日百万免费 Token,是我们赋能全球创新的重要一步。”
此次 API 的全面开放,不仅为初创公司和独立开发者提供了低成本的 AI 开发机会,也为企业用户提供了构建复杂 AI 应用的高效工具。Cerebras 的高性能推理能力,结合其在北美和欧洲新建立的六大数据中心,预计将进一步推动生成式 AI 在医疗、金融、语音交互等领域的广泛应用。
业内人士指出,Cerebras 此举可能对 AI 推理市场产生深远影响,尤其是在与 Nvidia 等传统 GPU 供应商的竞争中,Cerebras 凭借其独特的大尺寸晶圆级引擎(WSE-3)展现了强大的技术优势。未来,随着推理需求的持续增长,Cerebras 的开放策略或将重塑 AI 基础设施的市场格局。