模型众多,该如何选择?
GPT-5:OpenAI的最新旗舰模型,统一智能系统,GPT-5 集成了多个模型,自动根据任务复杂度选择最适合的模型进行处理,多模态首选。
GPT-5 Thinking:GPT-5 系列中的一个特定模式,专为处理复杂任务而设计。适用于科学研究、复杂编程任务和高难度的逻辑推理等领域。
GPT‑5-Codex:OpenAI旗舰编码模型,GPT-5和Codex的完美结合,编码能力反超Claude Opus 4.1,业界公认最强编码大模型。
Sora2:OpenAI最新旗舰视频和音频生成模型 Sora 2,它能够创建具有高度真实感的复杂背景音景、语音和音效。
Gemini 2.5 Pro:谷歌最新模型,在写作、编程、数学、推理、科研等基准测试中,全部刷新SOTA。
Grok 4:马斯克发布的最新模型,多项测试全面刷新SOTA,数学、科研、推理首选。
DeepSeek R1 0528:国产之光,开源最强模型,在整体表现上已接近其他国际顶尖模型,已解决“服务器繁忙,请稍后再试”问题。
先说结论:
编程能力:GPT-5 Codex > Claude Sonnet 4.5 > GPT-5 > Gemini 2.5 Pro
首先可以明确的是,四大模型给出的代码都没有bug,测试通过率都是100%,牛逼。
AI编程发展到如今这个程度,除了还需要人工配合外,其它的内容貌似都能干了。
程序员只负责使用AI辅助编程 + 抽烟摸鱼了。
GPT-5 Codex给出了解题思路与算法分析(包含问题本质、采用的数据结构和算法)、详细的Java 代码、详细的代码注释、对Java代码进行自测、测试用例及说明(包含边界用例)。
理由:
1、只有GPT-5 Codex对Java代码进行自测、给出了边界测试用例,小胜一筹。
2、Claude Sonnet 4.5作为Anthropic的最新旗舰模型,表现亮眼,但未给出边界测试用例,屈居第二。
3、GPT-5不是一次性完成,是通过多次连续提问,才给出了最后的答案,差评,但上下文较长,加分项。
4、Gemini 2.5 Pro没有明确表示对给出的代码进行自测、也未给出了边界测试用例。
GPT-5 Codex
准确性:通过本地IDEA自测,通过率100%
GPT-5 Codex给出了解题思路与算法分析(包含问题本质、采用的数据结构和算法)、详细的Java 代码、详细的代码注释、对Java代码进行测试、测试用例及说明(包含边界用例)。
Claude Sonnet 4.5
准确性:通过本地IDEA自测,通过率100%
Claude Sonnet 4.5给出了解题思路与算法分析(包含问题本质、采用的数据结构和算法)、详细的Java 代码、详细的代码注释、测试用例及说明(不包含边界用例)。
GPT-5
准确性:通过本地IDEA自测,通过率100%
GPT-5给出了解题思路、算法步骤、详细的Java 代码、详细的代码注释、对Java代码进行自测、测试用例及说明(不包含边界用例)。
回答中没有明确表明:对Java代码测试用例自测。
Gemini 2.5 Pro
Gemini 2.5 Pro给出了解题思路与算法分析(包含问题本质、采用的数据结构和算法)、详细的Java 代码、详细的代码注释、测试用例及说明(不包含边界用例)。
文章来自于微信公众号 “哪吒编程”,作者 “哪吒编程”