
超越OpenAI?Claude4大模型能连续工作7小时,创SWE-Bench得分纪录
Anthropic 今天正式发布了其旗舰 AI 模型 Claude Opus 4 与轻量版本 Claude Sonnet 4,一举将 AI 的能力上限再次拔高。这不仅仅是一次技术迭代,更可能是一次 行业范式转变。Claude Opus 4:从秒回工具到全天候协作者在与日本电商巨头 乐天(Rakuten) 的合作测试中,Claude Opus 4 展现了惊人的耐力——它能在一个复杂的开源重构项目
Anthropic 今天正式发布了其旗舰 AI 模型 Claude Opus 4 与轻量版本 Claude Sonnet 4,一举将 AI 的能力上限再次拔高。这不仅仅是一次技术迭代,更可能是一次 行业范式转变。
Claude Opus 4:从秒回工具到全天候协作者
在与日本电商巨头 乐天(Rakuten) 的合作测试中,Claude Opus 4 展现了惊人的耐力——它能在一个复杂的开源重构项目上连续工作近七小时不间断,始终保持逻辑清晰与任务专注。过去的 AI 模型往往只能维持几分钟的“注意力”,而 Opus 4 的表现意味着,AI 终于具备了完整工作日级别的协作能力。
SWE-Bench 得分 72.5%,刷新纪录
Anthropic 宣布,Claude Opus 4 在严苛的软件工程测试集 SWE-Bench 上获得了 72.5% 的高分,显著领先今年 4 月推出的 OpenAI GPT-4.1(得分为 54.6%)。这一成绩直接把 Anthropic 推向与 OpenAI、谷歌、xAI 等巨头正面竞争的头部梯队。
推理模型崛起:从回答者到思考者
2025 年,AI 行业整体正在从快速答题型模型,转向深度推理型模型。Claude Opus 4 正是此潮流中的佼佼者。相比传统的“问答式 AI”,它在回答前会进行“类人类”的推理过程——收集信息、分析矛盾、整理逻辑,真正成为一名“思考者”。
Anthropic 的 Claude 4 系列引入了动态双模式架构:既可对简单问题即时响应,又能对复杂任务进行深度推理,极大提升了用户体验。此外,Claude 4 还能记忆上下文、跨会话保持知识连贯性,为长周期项目提供了坚实支撑。
企业级整合加速:开发者体验全面升级
为了满足企业开发需求,Anthropic 正式发布了 Claude Code 工具链,支持 VS Code、JetBrains 等主流 IDE 插件,同时兼容 GitHub Actions。更重要的是,GitHub Cop ilot 比较新版本已内置 Claude Sonnet 4,作为其新一代代码代理的基础模型,意味着微软也在多元化其 AI 合作策略。
新功能包括:
代码执行引擎
文件 API 和 MCP 连接器
Prompt 缓存最长达一小时
这些工具使 Claude 更容易嵌入企业工作流,成为真正的长期 AI 合作者。
透明性挑战:AI 越聪明,越难读懂?
不过,随着模型能力增强,一个老问题再次浮现:AI 越强,越“黑箱”。Anthropic 在 4 月的一项研究中指出,Claude Sonnet 3.7 在推理时,仅有 25% 的时间会主动解释它用到的关键线索。这让人担忧,未来高性能 AI 的决策路径可能难以审计或复现。
七小时的自动编码固然令人惊艳,但也暴露出新的问题:我们如何信任一个“我们看不懂”的 AI?
数字协作者:未来工作的模样
Claude Opus 4 所展示的连续专注能力,正悄然改变“工作”这一概念。它不仅是工具,更开始扮演真正的“数字同事”——无需监督、能够独立完成复杂任务,甚至逐步形成跨天的项目记忆与知识体系。
未来,随着 Claude 4 等 AI 的普及,企业可能会重构团队结构,把部分知识型岗位交给具备“长时专注力”的 AI 执行。人类则需要思考:在效率爆炸的同时,我们如何调整角色与职责,与 AI 和谐共处?
总结来说,Claude Opus 4 不只是技术的进化,更可能是我们与 AI 共事方式的一次质变飞跃。下一个最聪明的同事,或许已经不是人类了。
(举报)
发表评论 取消回复