太卷了！Anthropic发布Claude 4 编程和推理能力秒杀Gemini2.5pro

AIbase基地

发布了 11569 文章

最近，人工智能界传来重大消息，Anthropic 正式推出了其 Claude4系列模型，包括 Claude Opus4和 Claude Sonnet4。这次发布并没有华丽的口号或冗长的论文，关键词只有一个 ——“干活”。根据 Anthropic 的说法，Claude Opus4被誉为全球最强的编程模型，能够稳定处理复杂且长期的任务，表现出色。而 Claude Sonnet4则在编程和推理能力上进行了强化，可以更加精准地回应用户的指令。

Claude4系列带来了多项令人期待的新功能。首先，模型能够在进行深入思考时使用辅助工具，从而优化推理过程和回复质量。其次，两款模型可以并行使用这些工具，并在开发者授权下提升记忆能力，保留关键信息并保持上下文的连贯性。此外，Claude Code 的发布也让这一系列模型在 GitHub Actions、VS Code 和 JetBrains 等平台上更加实用。

在编程基准测试 SWE-bench 上，Opus4以72.5% 的高分位列前茅，而在 Terminal-bench 上也以43.2% 领先其他竞品，展现了其卓越的编程能力。Opus4甚至能像经验丰富的程序员那样拆解问题，精准调试并执行复杂的任务，甚至在 Replit 的测试中表现出色，成功处理多文件和大改动的项目。

与 Opus4相比，Sonnet4虽然不一定是最强，但它在大多数开发者中可能更具吸引力。与前代相比，其编程能力、逻辑推理和响应可控性都有明显提升，几乎与 Opus4持平，达到了72.7% 的成绩。在处理复杂指令时，Sonnet4的表现更加清晰，代码结构也更为优雅，因此被选为新一代 GitHub C opilot 的底座模型。