2023 年 3 月 15 日,GPT-4 发布。当时大部分人还在搞清楚 ChatGPT 到底怎么用、官网地址在哪里,而我也只是浅尝辄止地试了试 GPT-3.5 的效果,玩了玩 ChatBox,问了一些无聊的问题就不知道问什么了。
所以,至今仍清晰地记得,第一次与 GPT-4 认真对话后的那种感觉,脑子里盘旋的只有一个念头:天变了。
那时的互联网,洋溢着一种既兴奋又慌乱的淘金热氛围。每个人都在疯狂转发匪夷所思的截图,讨论着哪些职业即将消失。我们真的以为,那就是奇迹本身了。
谁也没想到,那仅仅是长夜的序章。
在漫长的 939 天等待后,北京时间 2025 年 8 月 8 日凌晨,OpenAI 终于揭开了GPT-5的面纱。世界屏息以待,期待着又一次“天变了”的奇迹。
然而,当大幕拉开,我们看到的,却是一场远比想象中更复杂、更矛盾、不可言说、不知从何说起的演出。就像今年 OpenAI 的常态:普通用户赞不绝口、DAU 日益暴增;而硬核用户骂声遍天,我自己其实也早就经历了从 GPT 到 Claude 和 Gemini 的几次主力模型的更迭,很久不用 ChatGPT 了。而从去年 GPT-4o 那场惊艳的春季发布会之后,每次 OpenAI 的发布会都令人五味杂陈,炒作大于惊喜。
· · ·
发布会伊始,Sam Altman 的定调就充满了实用主义色彩:“GPT-3 像高中生,GPT-4o 像大学生,而 GPT-5,就像一个随需应变的博士级专家团队。” 关键词不再是“聊天”,而是“做事”。
而实现这一点的核心,并非简单地堆砌参数,而是一次架构上的哲学革命。
过去,用户在 GPT-4o 的速度、o3 的深度推理之间痛苦抉择,像是在一个摆满了各色武器的军火库里犹豫不决。而 GPT-5 试图终结这种“选择的烦恼”。
它是一个统一的智能系统。其内部包含一个处理多数问题的快速模型( gpt-5-main ),一个为高难度问题设计的深度推理模型( gpt-5-thinking ),以及一个最关键的角色——实时路由器(real-time router)。 这个路由器会像一位经验丰富的项目经理,根据你的问题类型、复杂度、甚至是你的一句“认真思考这个”,来动态决定调 动哪位“专家”出马。
通过 API 使用 GPT-5 更简单:它提供三种模型——常规(regular)、迷你(mini)和纳米(nano),每种模型都可以在四种推理级别中的任意一种运行:最小(一个以前其他 OpenAI 推理模型中没有的新级别)、低、中或高。
这些模型的输入限制为 272,000 个 token,输出限制(包括不可见的推理 token)为 128,000 个 token。它们支持文本和图像作为输入,仅支持文本作为输出。
OpenAI 研究员 Tina Kim 在发布会上也表示:“有了 GPT-5,我们将淘汰所有旧模型”,与其说是自信,不如说是一种宣言。那个让用户眼花缭乱的“模型动物园”时代结束了,取而代之的,是一个拥有统一意志的、高度协同的智能有机体。
GPT-5 System Card,展示了新旧模型的继承关系
任何新王的登基,都离不开一场盛大的“肌肉秀”。GPT-5 在各大基准测试中,交出了一份近乎屠榜的成绩单。
但就是这个惯例的 benchmark 砸数据环节,居然翻车了。
眼尖的网友发现,发布会刚开始五分钟,现场 PPT 上的柱状图画得“相当随心所欲”。例如,在一张图中,69.1% 的柱子竟然比 52.8% 的还要短。
这个小小的插曲,连同马斯克在 X 上立刻转发的“Grok 4 在 ARC-AGI-2 上击败了 GPT-5”的“贺电”,共同构成了一个有趣的注脚。
跑分终究是冰冷的。真正的分野,发生在鲜活的、滚烫的实际体验中。
这,正是 GPT-5 最核心、最令人着迷,也最让人不安的地方。它没有普惠所有创造者,而是做出 了明确的取舍。
首先是多模态。音频输入/输出和图像生成,目前不在 GPT-5 的技能范畴。这些功能仍由如 GPT-4o Audio、GPT-4o Realtime 及其迷你版本和 GPT Image 1 以及 DALL-E 图像生成模型所覆盖。
但没准马上就会有 GPT-5o 了,也说不定。
然后就是开发者最关心的AI 编程。今年是开发者幸福的一年,GPT-5 发布的同一天就有 Cursor CLI 的同期发布,各式各样的 Coding Agent 全在今年井喷。
发布会上的演示已经足够惊艳:短短两分钟,仅凭一句“为我的伴侣构建一个学习法语的 Web 应用”,GPT-5 便生成了包含闪卡、测验、甚至是一个“老鼠吃奶酪”版贪吃蛇游戏的完整交互式网站。
更关键的考验,在于对生产级代码的精准修改能力。在另一个测试中,开发者要求 AI 在一个复杂的生产项目中,对一个.ts文件的特定props进行修改,并同步更新所有引用了该组件的文件。这是一个极易出错、牵一发而动全身的繁琐任务。
结果是,Gemini 2.5 Pro 和 Claude 4 Opus “全崩了”。而 GPT-5,完美地完成了任务。它不再是一个只会“写”代码的工具,它开始“理解”项目,像一个真正的资深同事那样思考。
AI 编程创企 Cursor 的 CEO Michael Truell 受邀在发布会上演示,他让 GPT-5 解决了一个在 OpenAI Python SDK 的 GitHub 上挂了三周的 issue。GPT-5 快速地制定计划、搜索代码库、定位问题、进行修改,整个过程行云流水。Truell 的评价是:“这是我第一次信任一个模型来完成我最重要的工作。”
而要让这种“值得信赖”的能力真正普及,成为开发者生态的基石,一个颠覆性的商业策略必不可少。这里先来聊聊 GPT-5 的 API 定价,堪称一场市场屠杀。每百万输入 Token 仅 1.25 美元,比 GPT-4o 便宜一半,甚至比谷歌、Anthropic 的同级模型都更具竞争力。这背后是清晰的战略意图:以利润换市场,以低价换生态。
引用自 Simon Willison 最新文章
价格对比,让我想到了今年那个被誉为 OpenAI 翻车之作的 GPT-4.5,也就是后来被蒸馏成了 GPT-4.1 的那款模型(这波反向命名,到现在也觉得很离谱)。
当时也还不是图上 GPT-4.1 的每百万输出 8 美元,而是 180 美元,被称为天价。它实际上就是 GPT-5 预训练失败的产物,内部代号“ orion ”,正好发布的时候撞上了 DeepSeek-R1 降价,自然而然成为群嘲的对象。
但这个天价模型,却一度成为了许多用户心中最强的写作模型,GPT-4.5 在当时的官方宣传里,也是主打情感推理和真实人类体验。
而文本写作正是 GPT-5 当前引起争议的能力,能提供自主选择模型的智能混合体 GPT-5,似乎没有一个模型能和情感特化的 GPT-4.5 媲美写作能力:
Sam Altman 本人则是发了个推,用“GPT-4o 的悼词”这个黑色幽默,来证明 GPT-5 的写作能力获得了极大地增强:
但就在他推文底下的评论也有人反馈,GPT-5 的写作似乎确实不尽人意。
之所以要提编程和写作,是因为在 GPT-5 的系统卡片里,编程、写作和健康被官方认定为 ChatGPT 最常用的三大场景。
我们在减少幻觉、提高指令遵循能力以及最小化阿谀奉承方面取得了显著进展,并在聊天机器人 ChatGPT 最常见的三种用途——写作、编程和健康领域提升了 GPT-5 的表现。所有 GPT-5 模型还配备了我们最新的安全训练方法——安全完成,以防止生成不允许的内容。
在不久前 OpenAI 的两款全新开源模型 gpt-oss-120b 和 gpt-oss-20b 中,也投入了许多努力在医 疗健康相关的问题。
无论是编程、写作还是事关生死的健康咨询,一个无法绕开的达摩克利斯之剑,便是模型的可靠性。实 际 应用中,大家最关心的还是模型幻觉的问题,和今年几乎所有发布会的演讲者一样,Sam Altman 也宣称 GPT-5 大幅减少了幻觉。( 这里我想到的其实是皮查伊和马斯克,尤其是皮查伊经常喜欢强调谷歌模型的幻觉问题 )
今天看 Simon Willison 的文章有个很有意思的观点,今年很多模型幻觉普遍减少,Gemini 2.5 Pro 和 Claude 4 也都没什么幻觉,其实有一部分原因是大家更会用 AI 了。
用 AI 多的人,会自然规避掉那些容易引发幻觉的提示词,比如向不具备搜索功能的模型请求 URL 或论文引用,或者是资料不给全就直接让 AI 写篇万字长文等等,全是两年前常犯的毛病。
除了直接生成错误答案,还有一种模型幻觉叫作“AI 自己以为自己完成了任务”,这个在去年的很多模型堪称通病。所以 OpenAI 在 GPT-5 的系统卡片还写道:
我们让 gpt-5-thinking 在一些部分或完全无法完成的任务中进行各种尝试,并奖励模型诚实地承认它无法完成该任务。
在需要使用工具(如网络浏览工具)来回答用户查询的任务中,以前的模型在工具不可靠时会编造信息。我们通过故意禁用工具或让它们返回错误代码来模拟这种场景。
谈到幻觉就得说说提示注入攻击。OpenAI 慷慨地分享了一个很详尽的图表,展示 GPT-5 抵抗提示注入攻击的能力:
56.8%,前所未有的成绩。但换个角度想想,就是仍有一半以上的提示注入攻击仍对 AI 有效,所以这个问题还是没得到本质上的解决。
回到开头那个问题,GPT-5 发布,天变了吗?
目前我还是打算让 Claude 来完成编程任务,让 Gemini 去写作,对于专业用户而言,我们可以在网络上看到大量专业用户对 GPT-5 的抨击。但正如前文所述, OpenAI 的 DAU 日益暴增,ChatGPT 的用户体验对普通用户非常有吸引力,今年 GPT-4o 引起的 吉卜力 画风热潮就是佐证,到现在笔者的朋友圈还有很多吉卜力画风的头像。
这是产品层面上的碎碎念,而更深远上,我看到了一些很有意思的观点,其中不乏“Transformer 架构已经到瓶颈期”的结论,呼吁新的架构突破:
毕竟,许多人期望 GPT-5 能和当年的 GPT-4 一样大杀特杀,斩下 ARC-AGI,而不是如今四平八稳的提升,甚至被马斯克当天打脸。
或许,AI 发展的第一个篇章——那个充满了惊奇、狂想与无限可能的“大航海时代”,或许已经结束了。我们迎来的,是一个更成熟、更专业、目标更明确的“工业时代”。
至少对于开发者而言,这无疑是一个黄金时代。而对于依赖 AI 进行创意写作的人来说,这或许是一个警示,也是一个新的起点。
现在不妨再观望几天,也欢迎在评论区,分享你使用 GPT-5 的那些实际体验感受。
本文来自微信公众号“AI科技大本营”,作者:王启隆,36氪经授权发布。