
太卷了!Anthropic发布Claude 4 编程和推理能力秒杀Gemini2.5pro
最近,人工智能界传来重大消息,Anthropic 正式推出了其 Claude4系列模型,包括 Claude Opus4和 Claude Sonnet4。这次发布并没有华丽的口号或冗长的论文,关键词只有一个 ——“干活”。根据 Anthropic 的说法,Claude Opus4被誉为全球最强的编程模型,能够稳定处理复杂且长期的任务,表现出色。而 Claude Sonnet4则在编程和推理能力上进行
最近,人工智能界传来重大消息,Anthropic 正式推出了其 Claude4系列模型,包括 Claude Opus4和 Claude Sonnet4。这次发布并没有华丽的口号或冗长的论文,关键词只有一个 ——“干活”。根据 Anthropic 的说法,Claude Opus4被誉为全球最强的编程模型,能够稳定处理复杂且长期的任务,表现出色。而 Claude Sonnet4则在编程和推理能力上进行了强化,可以更加精准地回应用户的指令。
Claude4系列带来了多项令人期待的新功能。首先,模型能够在进行深入思考时使用辅助工具,从而优化推理过程和回复质量。其次,两款模型可以并行使用这些工具,并在开发者授权下提升记忆能力,保留关键信息并保持上下文的连贯性。此外,Claude Code 的发布也让这一系列模型在 GitHub Actions、VS Code 和 JetBrains 等平台上更加实用。
在编程基准测试 SWE-bench 上,Opus4以72.5% 的高分位列前茅,而在 Terminal-bench 上也以43.2% 领先其他竞品,展现了其卓越的编程能力。Opus4甚至能像经验丰富的程序员那样拆解问题,精准调试并执行复杂的任务,甚至在 Replit 的测试中表现出色,成功处理多文件和大改动的项目。
与 Opus4相比,Sonnet4虽然不一定是最强,但它在大多数开发者中可能更具吸引力。与前代相比,其编程能力、逻辑推理和响应可控性都有明显提升,几乎与 Opus4持平,达到了72.7% 的成绩。在处理复杂指令时,Sonnet4的表现更加清晰,代码结构也更为优雅,因此被选为新一代 GitHub C opilot 的底座模型。
随着 AI 技术的发展,Anthropic 也在模型的行为和推理方面做出了优化。Claude4系列能够有效执行复杂的推理任务,并大幅减少在逻辑漏洞测试中的问题发生率。同时,新引入的 “思维总结” 功能,在模型思考路径过长时,会自动进行信息的压缩与归纳,使最终信息更加简洁清晰。
随着 Claude Code 的正式开放,开发者们将能更轻松地在自己的工作流中使用这一强大的 AI 助手。不论是在命令行终端还是在常用的 IDE 中,Claude Code 都能嵌入真实开发场景,提供代码修改建议,使开发过程更加高效。
发表评论 取消回复