AI热点 7月前 • 254 浏览次数 • 0 评论

GPT-5通关《宝可梦水晶》创纪录！效率碾压o3三倍！

量子位

量子位

发布了 615 文章

henry 发自凹非寺
量子位 | 公众号 QbitAI

又是一场酣畅淋漓的战斗！

宝可梦主播GPT-5在直播间鏖战一小时，成功击败赤爷（Red），公屏瞬间刷满GG（Good Game）。

根据推特博主Clad3815的最新战报，GPT-5仅用9517步就放倒了赤爷，通关《宝可梦水晶》。

相比之下，o3则用了27040步，所用步数几乎是GPT-5的三倍。

换句话说，GPT-5不吃不喝连肝一周多一点（202小时）就能通关的《宝可梦水晶》，换成o3需要近一个月。

如果把视角拉回到普通人类玩家身上，通关《宝可梦水晶》的时间通常在5天左右（每天8小时）。

基于此，不少玩家已经开始留言，请继续征战下一代宝可梦！

那么，GPT-5是怎么做到的？

赤爷不语，GPT-5登顶宝可梦

在《宝可梦水晶》的剧情中，玩家从小镇出发，选择宝可梦，挑战道馆馆主、收集徽章，阻止火箭队的阴谋，最终迎战最强训练家——赤红（《宝可梦红/蓝》的主角）

而这次，GPT-5就化身小智，成为了新的挑战者——并一举击败赤爷，登顶宝可梦。

除了我们开头提到的，GPT-5仅用了o3三分之一的步数就实现了通关，在《宝可梦水晶》全部的主线任务中，GPT-5也是按照剧情一路平推，效率远超o3好几倍。

（注：在《宝可梦水晶》中，玩家击败boss后仍然可以自由探索收集宝可梦，所以直播还开着。）

例如，在收集全部16枚游戏徽章的主线中，GPT-5仅用了9205步，而o3则耗费了22334步。

更惊人的是，从收集完所有徽章到战胜赤爷，o3还需要近5000步，而GPT-5仅用了312步，加速了十几倍。

同样的，在四天王和冠军的剧情中，GPT-5也是仅花了7329步，而o3则用了两倍多的步数（18115步）。

此外，在通关《宝可梦水晶》之前，GPT-5还被用来通关《宝可梦红》（游戏长度约为《宝可梦水晶》的一半）。

赤爷不语，依旧是3倍的效率碾压。

对此，OpenAI的总裁兼联合创始人Greg Brockman也是亲自转发表示认可！

看到GPT-5的生猛表现，Clad老哥总结了这么几个原因：

幻觉少，速度快：GPT-5的“幻觉”明显比o3少，这也是它速度提升的主要原因。
空间推理强：o3经常试图硬穿墙，复杂区域容易迷路，而GPT-5能规划较长行动序列，几乎不出错，节省大量时间。
目标规划更好：GPT-5在规划自身目标并执行上表现出色。

难道说，GPT-5模型能力的提升，在宝可梦这个舞台上才被完全体现出来？

（让子弹多飞一会儿）

不过，必须说明的是——让大模型玩宝可梦并不新鲜。

早在GPT-5之前，Google的Gemini和Anthropic的Claude就曾挑战过宝可梦。

其中，Gemini 2.5 Pro在今年五月的直播中，成功通关了《宝可梦蓝》，而Claude就比较惨了，至今仍被困于火箭队。

那么问题来了：为啥AI大模型都如此偏爱这款上世纪的怀旧游戏呢？

宝可梦是新的benchmark？

要回答上面的问题，我们得先知道大模型是怎么玩宝可梦的。

一般来说，大模型玩宝可梦的基本步骤如下：

提供一个系统提示，包含关于如何进行游戏的实质性建议
提供带有额外信息叠加的游戏截图
提供来自游戏内存（RAM）的关键信息
提供保存文本以进行规划的能力
提供一个工具，可以将文本指令转换为模拟器中的按键操作
提供路径规划工具
让上下文能够被自动清理并定期总结
一个额外的用来“自我批评”的Critic/Guide模型。它们定期对主模型进行评审，并配备系统提示以帮助主模型避免常见失败模式。

此外，大模型还会专门构建一个带标记的小地图，帮助其在游戏世界里定位，这类似于人类玩家在玩游戏时脑补地图的方式。

综上，我们就获得了一个基本印象：在宝可梦游戏中，大模型通过多层信息整合、规划、执行与自我纠错，实现了接近人类玩家的决策能力。

由此，宝可梦游戏就能作为衡量模型上下文能力、决策规划、界面控制能力的指标之一。

可惜的是，这场考试的报名费可并不便宜。

根据网友分析，在GPT-5通关游戏长度仅为《宝可梦水晶》一半的《宝可梦红》中，就花费了约3500美元（约2万五人民币）的GPT-5 API额度。其中，每个token的花费就达到了4块多人民币。

所以，除非你在OpenAI工作，否则想把宝可梦当作benchmark，还得先掂量一下钱包够不够厚。

参考链接

[1]https://x.com/Clad3815/status/1959856362059387098

[2]https://www.twitch.tv/videos/2549204340?t=0h8m43s

[3]https://gpt-plays-pokemon.clad3815.dev/crystal/game-data

[4]https://www.techradar.com/ai-platforms-assistants/chatgpt/gpt-5-just-completed-pokemon-red-in-a-new-world-record-time-claude-gemini-and-chatgpt-o3-arent-even-close

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

量子位

量子位

615 文章 100672 浏览次数 9840 粉丝

评论 (0)

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

5月前 • AI热点

用户破8亿！GPT-5.1来了，表情包含量可自定义

用户破8亿！GPT-5.1来了，表情包含量可自定义

5月前 • AI热点

发布即开放：百度猎户座葫芦里卖的什么药？

发布即开放：百度猎户座葫芦里卖的什么药？

5月前 • AI热点

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

5月前 • AI热点

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

5月前 • AI热点

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

5月前 • AI热点

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

5月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

热门标签

涩涩政治网红美女同道用AI赚钱 ManimML 联影科技三国演义科技新闻 MicrosoftStore

热门作者

AI中国

AI中国

11569 文章 95.03万关注

钛媒体APP

钛媒体APP

1489 文章 0 关注

IT之家

IT之家

1221 文章 5.64K 关注

人人都是产品经理

人人都是产品经理

1210 文章 5.87万关注

AIbase基地

AIbase基地

1093 文章 9.63万关注