产品评测 9小时前 107 浏览次数 0 评论

谁是最强编程大模型?横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

AI中国
AI中国

发布了 10925 文章

模型众多,该如何选择?


GPT-5:OpenAI的最新旗舰模型,统一智能系统,GPT-5 集成了多个模型,自动根据任务复杂度选择最适合的模型进行处理,多模态首选。


GPT-5 Thinking:GPT-5 系列中的一个特定模式,专为处理复杂任务而设计。适用于科学研究、复杂编程任务和高难度的逻辑推理等领域。


GPT‑5-Codex:OpenAI旗舰编码模型,GPT-5和Codex的完美结合,编码能力反超Claude Opus 4.1,业界公认最强编码大模型。


Sora2:OpenAI最新旗舰视频和音频生成模型 Sora 2,它能够创建具有高度真实感的复杂背景音景、语音和音效。


Gemini 2.5 Pro:谷歌最新模型,在写作、编程、数学、推理、科研等基准测试中,全部刷新SOTA


Grok 4:马斯克发布的最新模型,多项测全面刷新SOTA,数学、科研、推理首选。


DeepSeek R1 0528:国产之光,开源最强模型,在整体表现上已接近其他国际顶尖模型,已解决“服务器繁忙,请稍后再试”问题。


先说结论:


编程能力:GPT-5 Codex > Claude Sonnet 4.5 > GPT-5 > Gemini 2.5 Pro


首先可以明确的是,四大模型给出的代码都没有bug,测试通过率都是100%,牛逼。


AI编程发展到如今这个程度,除了还需要人工配合外,其它的内容貌似都能干了。


程序员只负责使用AI辅助编程 + 抽烟摸鱼了。


GPT-5 Codex给出了解题思路与算法分析(包含问题本质、采用的数据结构和算法)、详细的Java 代码、详细的代码注释、对Java代码进行自测、测试用例及说明(包含边界用例)。


理由:


1、只有GPT-5 Codex对Java代码进行自测、给出了边界测试用例,小胜一筹。


2、Claude Sonnet 4.5作为Anthropic的最新旗舰模型,表现亮眼,但未给出边界测试用例,屈居第二。


3、GPT-5不是一次性完成,是通过多次连续提问,才给出了最后的答案,差评,但上下文较长,加分项。


4、Gemini 2.5 Pro没有明确表示对给出的代码进行自测、也未给出了边界测试用例。


GPT-5 Codex


准确性:通过本地IDEA自测,通过率100%


GPT-5 Codex给出了解题思路与算法分析(包含问题本质、采用的数据结构和算法)、详细的Java 代码、详细的代码注释、对Java代码进行测试、测试用例及说明(包含边界用例)。



Claude Sonnet 4.5


准确性:通过本地IDEA自测,通过率100%


Claude Sonnet 4.5给出了解题思路与算法分析(包含问题本质、采用的数据结构和算法)、详细的Java 代码、详细的代码注释、测试用例及说明(不包含边界用例)。




GPT-5


准确性:通过本地IDEA自测,通过率100%


GPT-5给出了解题思路、算法步骤、详细的Java 代码、详细的代码注释、对Java代码进行自测、测试用例及说明(不包含边界用例)。


回答中没有明确表明:对Java代码测试用例自测。



Gemini 2.5 Pro


Gemini 2.5 Pro给出了解题思路与算法分析(包含问题本质、采用的数据结构和算法)、详细的Java 代码、详细的代码注释、测试用例及说明(不包含边界用例)。





文章来自于微信公众号 “哪吒编程”,作者 “哪吒编程”

AI中国

AI中国

10925 文章 1964160 浏览次数 950300 粉丝

评论 (0)

睡觉动画