北京时间8月8日凌晨,OpenAI发布了它们最新一代的GPT模型——GPT-5。
但是这一次的模型发布,却没有ChatGPT和GPT-4发布时那种横空出世的气势,也没有像o1发布时那样引领模型范式。
GPT-5以个位数优势领先竞争对手
从发布会公布的benchmark看,它的性能凭借个位数的优势,领先其他厂商在2025年发布的SOTA级别模型,失去了以往的代差优势。
但是,在这次发布中,我们观察到几个值得注意的点,简要分析,与关心AI的创业者和技术人们分享。
1.合成数据的可用化
在发布会中,OpenAI的技术专家介绍,在GPT-5的训练中,他们让GPT-4o、o3等前一代模型生成训练数据,使GPT-5获得了推理、规划、分解任务的能力。
但是这种数据与那种“充数”的数据不同,OpenAI设计了一个能让模型生成“正确类型数据”的“合成流程”,提高了合成数据在模型训练中的作用。
这种合成数据的新应用,让前一代先进模型生成高质量数据,让后一代的预训练模型越来越强,再通过强化学习加强推理模型的方式,为先进模型的训练提供了新的可能性。
当然,要让模型能够解决更复杂的问题,或者越来越有“品味”,还是得靠高质量的人类标注数据,而且还需要一个经得住考验的数据质量评估系统。
2.Agent变得越来越重要
Agent成为2025年AI应用领域最热的关键词,而这一波热潮,也是OpenAI在2月发布的“Deep Research”功能掀起的。根据OpenAI的技术人员此前的分享,Agent本质不仅是模型+工具,而且需要从训练阶段,就让模型的能力为Agent优化。
所以在2025年,以Agentic AI为目标的AI模型越来越多,无论是海外的o3,Claude4,还是国内的Qwen3,Kimi K2。
GPT-5,当然也不例外。它对于工具调用能力进行了着重微调。在模拟真实世界场景的测试集Tau²中,它在电信领域领域的测试结果,较o3和GPT-4.1都有长足的进步。
由latent.space邀请创业者和技术专家对GPT-5的测试中,可以看到了GPT-5在工具调用上的一些新特点。
一方面,人们只需要自然语言描述,就可以让GPT-5调用工具。
另一方面,GPT-5非常擅长并行使用工具。这是很多其他模型做得到,但做不好的领域。因为理解哪些工具可以/应该并行运行,哪些应该顺序运行,需要相当高的智能。
能够并行化使用工具,意味着GPT-5可以在更长的时间范围内运行,并且具有更低的延迟。这种改进使得基于GPT-5构建更复杂的Agent产品成为可能。
总结来说,GPT-5会与工具一起思考,然后用工具来构建程序。
3.GPT-5在编程方面进行了着重升级
编程是现在所有的AI模型又一个着重强调的能力,GPT-5在SWE-bench和Aider Polyglot等测试上与o3相比有了明显提高,但是在SWE-bench这个指标上,只领先Claude 4.1 Opus这个直接竞争对手0.4%。
GPT-5的编程表现
Claude 4.1 Opus的编程表现
不过在实际的编程能力上,GPT-5的进步会更大。一方面,它擅长智能体式编码;另一方面,它“修改bug”的能力更好。这两个提升,一个对应的是商业化的复杂编程,另一个则对应个人化的“Vibe Coding”。
前文提到的latent.space也对GPT-5的智能体式编码进行了测试,他们的“测试题”比较困难,无论是o3 + Cursor还是Claude 4 Opus都无法解决问题,但GPT-5却一次性就将问题解决了。
这其中的关键,就在于模型调用工具的方式不同。在与Claude 4 Opus的对比中,GPT-5会在编程过程中进行更多次的思考,类似于边想边做,不断迭代;而Claude 4 Opus则更类似于想清楚了再做。
GPT-5与Claude 4 Opus在智能体式编码方面的对比(来源:latent.space)
为什么无论是模型厂商还是应用创业公司,都对AI编程如此重视?因为编程是目前AI应用领域,已探明市场容量最大的方向之一,有助于大家缓解营收的压力。
Anthropic从Claude 3.5开始,一步步占据最强编程模型的位置,OpenAI也是从o1,o3,一直到GPT-5;对于编程的投入越来越大,并且无论是“跑分”还是实际应用,表现越来越好。
4.GPT-5不是向着AGI优化的,它是OpenAI进一步加强商业化的产物
尽管OpenAI,尤其是它的CEO Sam Altman一再强调它们是一家以AGI为长期愿景的公司,但是从GPT-5本身,以及OpenAI自2025年发布的一系列产品和功能来看,它们的商业化属性,在进一步增强。
2025年,它们在ChatGPT中发布了DeepResearch,引领了Agent热潮;对Canvas功能进行加强,允许直接在视觉界面中编辑内容;为GPT-4o加入生图功能,让全世界沉浸在吉卜力风的世界里;还加入了学习模式(Study Mode),让ChatGPT变成个人教师。
这一系列针对用户体验而非探索AGI的升级,让ChatGPT的用户数和收入水涨船高,根据最新的统计,ChatGPT的周活用户超过7亿,付费用户达到500万,订阅收入是27亿美元。
在企业级的商业化方面,GPT-5将其API价格控制在输入1.25美元/百万tokens,输出10美元/百万tokens,直接对标Gemini 2.5Pro,大幅低于Claude 4 Opus,这对于企业和开发者们比较有吸引力。
除此之外,GPT-5还大幅降低了模型的幻觉,大幅提高了上下文长度(拓展到了400k),而且GPT-5 thinking在解决复杂问题时,使用的token数量减少了50%-80%,这些都提高了模型的可用性,降低了成本。
5.模型的进步进入瓶颈期,对于创业者是坏事么?
进入2025年,我们看到了开源的DeepSeek R1席卷全球,看到Gemini 2.5Pro成为新的SOTA模型标杆,但同样也看到了大语言模型进步速度的停滞。
无论是马斯克的xAI用数十万块显卡训练的Grok4,还是千呼万唤始出来的GPT-5,它们虽然强,但是进步是渐进式,而非跨越式。可能在现有的技术范式下,大语言模型的性能进步已经暂时遭遇了瓶颈。
那么,如果大语言模型遇到瓶颈,对于应用端的创业者来说,是好事还是坏事?模型厂商在模型训练遇阻后,会将更多精力放到应用端么?创业者会被大厂们吞掉么?
我们认为不会,因为AI应用是一个快鱼吃慢鱼,而不是大鱼吃小鱼的游戏。拼速度,拼创新,拼对于用户的感知,大厂在创业公司面前完全没有优势。
最近,Notion的Ivan Zhao在接受采访时说,在AI时代,打造产品的材料和方式彻底不同了,面对新的挑战,他异常兴奋。这种创业和创新的状态,是我们欣赏的。
本文来自微信公众号“阿尔法公社”(ID:alphastartups),作者:发现非凡创业者的阿尔法公社,36氪经授权发布。
AI测评人
等来这些东西吗?