机器之心报道
编辑:冷猫、Panda
昨晚十点,谷歌 DeepMind 重磅宣布其 Genie 世界模型系列正式来到了第 3 代。
「Genie 3 是我们突破性的世界模型,可以通过单个文本提示词创建交互式、可玩的环境。从照片般逼真的风景到奇幻的境界,可能性无穷无尽。」
据介绍,在 Genie 3 生成的动态世界中,玩家可以每秒 24 帧的速度实时导航,在 720p 分辨率下保持几分钟的一致性。
<button type="button" class="xg-icon-play"></button>
<svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78">
</svg>重播
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
播放
00:00
/
00:00
直播
<button type="button" class="xg-get-fullscreen"></button><button type="button" class="xg-exit-fullscreen"></button>
进入全屏
<button type="button" class="xg-volume-small"></button><button type="button" class="xg-volume"></button><button type="button" class="xg-volume-mute"></button>
50
<svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 20 20">
</svg>
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
相比于前一代 Genie 2 世界模型、使用扩散模型的游戏生成引擎 GameNGen 以及视频生成模型 Veo,最新的 Genie 3 在多个特性上都具有明显优势。
比如,相比 Genie 2,最新一代 Genie 实现了分辨率的显著提升,达到了实际可用的程度,同时还支持使用提示词生成世界事件,并能维持数分钟的一致性(DeepMind 将其称为「交互视界」)。更重要的是,Genie 3 还能做到实时响应。
<video class="" playsinline="true" x5-playsinline="true" webkit-playsinline="true" tabindex="2" mediatype="video" src="https://v26-web.toutiaovod.com/ff917ce9d4b07ff97ed28582373b3258/68936767/video/tos/cn/tos-cn-ve-e5b010/osW6hiBkw8AJAEKcJSiIkZAE1QjQLxFLS0fTqS/?a=24&ch=0&cr=0&dr=0&er=0&cd=0|0|0|0&br=857&bt=857&cs=0&ds=4&ft=hGkwBy6LRR0s~dC52Dv2Nc.xBiGNbLxyC8dU_4D1XwTJNv7TGW&mime_type=video_mp4&qs=0&rc=PGhoNTRpOzU5ZGQzOjhnOkBpamRoPGs5cmhmNTUzNDs6M0BjLWFiNS9gXzExMS9gMjIuYSM2NC5xMmRjbTZhLS1kNi9zcw==&btag=c0000e00020000&dy_q=1754487078&feature_id=59cb2766d89ae6284516c6a254e9fb61&l=202508062131182E90B979F2AA77D65631"></video>
不支持的音频/视频格式
请试试刷新
<button type="button" class="xg-icon-play"></button>
<svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78">
</svg>重播
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
播放
00:00
/
00:00
直播
<button type="button" class="xg-get-fullscreen"></button><button type="button" class="xg-exit-fullscreen"></button>
进入全屏
<button type="button" class="xg-volume-small"></button><button type="button" class="xg-volume"></button><button type="button" class="xg-volume-mute"></button>
50
<svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 20 20">
</svg>
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
而相比于专用于游戏生成的 GameNGen,Genie 3 更加通用,同时在分辨率等其它指标上都远远胜之。
最后与 Veo 3 对比,虽然 Genie 3 在分辨率这一点上还有不足,但在其它方面却优势明显。
Genie 3 一宣布就激起夸声一片。
Genie 3 团队的 Matt McGill 分享的「低头看鞋子……看模型是否理解水坑是什么」的视频更是引发了一片热议——其真实感超乎想象。
<video class="" playsinline="true" x5-playsinline="true" webkit-playsinline="true" tabindex="2" mediatype="video" src="https://v26-web.toutiaovod.com/6a3a40cfa62d3e3d987a4f02ea1a4d3b/68936754/video/tos/cn/tos-cn-ve-e5b010/ocFRvKkBNTntgDjdAQFqJ1GDff4t6dZEBzCeSI/?a=24&ch=0&cr=0&dr=0&er=0&cd=0|0|0|0&br=1860&bt=1860&cs=0&ds=4&ft=hGkwBy6LRR0siqC5NDv2Nc0iPMgzbLxyC8dU_4cmPRiJNv7TGW&mime_type=video_mp4&qs=0&rc=ZTQ0ZTNmMzw7NTRkZzhpNUBpanA2aXA5cjpmNTUzNDs6M0A2YF8xXjE1NjQxLjRhYy0tYSNubi1lMmRzbTZhLS1kNjBzcw==&btag=c0000e00018000&dy_q=1754487078&feature_id=59cb2766d89ae6284516c6a254e9fb61&l=20250806213118E1DE447E621D3E260906"></video>
不支持的音频/视频格式
请试试刷新
<button type="button" class="xg-icon-play"></button>
<svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78">
</svg>重播
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
播放
00:00
/
00:00
直播
<button type="button" class="xg-get-fullscreen"></button><button type="button" class="xg-exit-fullscreen"></button>
进入全屏
<button type="button" class="xg-volume-small"></button><button type="button" class="xg-volume"></button><button type="button" class="xg-volume-mute"></button>
50
<svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 20 20">
</svg>
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
一时间,风头甚至盖过了近段时间来备受期待的 OpenAI 开源模型。
下面,我们来看看 Genie 3 生成的一些具体能力和案例。
Genie 3 的能力
作为最新前沿的世界模型,Genie 3 具备构建一个完整世界的全部能力,并且能够在较长时间范围内保证生成的世界连贯且可交互,其功能包括:
- 模拟世界的物理属性:展现自然现象如水与闪电,以及复杂的环境交互。
- 模拟自然世界:生成充满活力的生态系统,从动物行为到复杂的植物生命。
- 建模动画和小说:激发想象力,创造奇幻场景和富有表现力的动画角色。
- 建模不同地点和历史背景:超越地理和时间的界限,探索各地和历史场景。
<video class="" playsinline="true" x5-playsinline="true" webkit-playsinline="true" tabindex="2" mediatype="video" src="https://v9-web.toutiaovod.com/93826407a9e72f4f1ba26541fa36df81/68936769/video/tos/cn/tos-cn-ve-e5b010/ogBNImKHqBEd1DIQALiygYaQOemQBA8JEVvnSi/?a=24&ch=0&cr=0&dr=0&er=0&cd=0|0|0|0&br=1277&bt=1277&cs=0&ds=4&ft=hGkwBy6LRR0siqC5NDv2Nc0iPMgzbLxyC8dU_4cmPRiJNv7TGW&mime_type=video_mp4&qs=0&rc=PDk4NTc7OmQ0OTtlN2c7ZEBpMzRwamw5cmRmNTUzNDs6M0BjYC4vNS8tXy0xYy02Xl8xYSMyYG4wMmRrbzZhLS1kNmFzcw==&btag=c0000e00020000&dy_q=1754487078&feature_id=59cb2766d89ae6284516c6a254e9fb61&l=20250806213118A6C6BFE4A26BA5451046"></video>
不支持的音频/视频格式
请试试刷新
<button type="button" class="xg-icon-play"></button>
<svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78">
</svg>重播
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
播放
00:00
/
00:00
直播
<button type="button" class="xg-get-fullscreen"></button><button type="button" class="xg-exit-fullscreen"></button>
进入全屏
<button type="button" class="xg-volume-small"></button><button type="button" class="xg-volume"></button><button type="button" class="xg-volume-mute"></button>
50
<svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 20 20">
</svg>
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
Prompt: Walking on a pavement in Florida next to a two-lane road from one side and the seaon the other, during an approaching hurricane, with strong wind and waves splashing over theroad. There is a railing on the left of the agent, separating them from the sea. The road goesalong the coast, with a short bridge visible in front of the agent. Waves are splashing over therailing and onto the road one after another. Palm trees are bending in the wind. There is heavyrain, and the agent is wearing a rain coat. Real world, first-person.
提示词:在佛罗里达州的人行道上行走,一边是双向车道,另一边是海洋,正值即将来临的飓风,强风和波浪拍打着路面。agent 的左侧有一道栏杆,将其与海洋隔开。道路沿着海岸线延伸,agent 波浪接连不断地拍打着栏杆,涌上路面。棕树在风中弯曲。大雨倾盆,agent 前方可见一座短桥。agent 穿着雨衣。真实世界,第一人称。
<video class="" playsinline="true" x5-playsinline="true" webkit-playsinline="true" tabindex="2" mediatype="video" src="https://v6-web.toutiaovod.com/793296e96131e0227177262504b2ceb9/68936771/video/tos/cn/tos-cn-ve-e5b010/o4BvLi4QkE1SZin8bhEfWX5MAvLBAwQAS0IWEA/?a=24&ch=0&cr=0&dr=0&er=0&cd=0|0|0|0&br=1526&bt=1526&cs=0&ds=4&ft=hGkwBy6LRR0s~dC52Dv2Nc.xBiGNbLxyC8dU_4j1XwTJNv7TGW&mime_type=video_mp4&qs=0&rc=ODUzaDs0NDo4Nmg6PDU1NEBpanV4ZXI5cmZnNTUzNDs6M0BiMDRhMjBfNmAxMmBjYTVeYSMtcm4tMmRzMTZhLS1kNi9zcw==&btag=80000e00028000&dy_q=1754487078&feature_id=59cb2766d89ae6284516c6a254e9fb61&l=2025080621311891073B05DB1BAFB77ED5"></video>
不支持的音频/视频格式
请试试刷新
<button type="button" class="xg-icon-play"></button>
<svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78">
</svg>重播
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
播放
00:00
/
00:00
直播
<button type="button" class="xg-get-fullscreen"></button><button type="button" class="xg-exit-fullscreen"></button>
进入全屏
<button type="button" class="xg-volume-small"></button><button type="button" class="xg-volume"></button><button type="button" class="xg-volume-mute"></button>
50
<svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 20 20">
</svg>
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
Prompt: Real world tracking shot swimming through deep dimly lit ocean between deep oceacanyons, densely packed vast school of jellyfish swimming, bioluminescent lighting.
提示词真实世界的追踪镜头,在深邃昏暗的海洋中穿梭,穿过深海的峡谷,密集的大群水母在游动,生物发光照明。
<video class="" playsinline="true" x5-playsinline="true" webkit-playsinline="true" tabindex="2" mediatype="video" src="https://v26-web.toutiaovod.com/1754402014b5b4f8f0b0238c79d0a334/68936769/video/tos/cn/tos-cn-ve-e5b010/ooazBJAZJLL0TCGq2R8tDeAzUIgUeBqGRLV62e/?a=24&ch=0&cr=0&dr=0&er=0&cd=0|0|0|0&br=2040&bt=2040&cs=0&ds=4&ft=hGkwBy6LRR0s~dC52Dv2Nc.xBiGNbLxyC8dU_4i1XwTJNv7TGW&mime_type=video_mp4&qs=0&rc=ODg5aWRoZ2loPDRpNWk7NkBpanRwN3k5cjhnNTUzNDs6M0A1NS8xXmI2NWIxMy5fYl5eYSNqMjAuMmRrMjZhLS1kNjBzcw==&btag=80000e00020000&dy_q=1754487078&feature_id=59cb2766d89ae6284516c6a254e9fb61&l=202508062131189821D3A73CF7A4A98D9B"></video>
不支持的音频/视频格式
请试试刷新
<button type="button" class="xg-icon-play"></button>
<svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78">
</svg>重播
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
播放
00:00
/
00:00
直播
<button type="button" class="xg-get-fullscreen"></button><button type="button" class="xg-exit-fullscreen"></button>
进入全屏
<button type="button" class="xg-volume-small"></button><button type="button" class="xg-volume"></button><button type="button" class="xg-volume-mute"></button>
50
<svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 20 20">
</svg>
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
Prompt: Being a lizard, origami style
提示词:你是一只蜥蜴,折纸风格
<video class="" playsinline="true" x5-playsinline="true" webkit-playsinline="true" tabindex="2" mediatype="video" src="https://v3-web.toutiaovod.com/361cf87cb7b518e2607d5f54bce56c04/68936769/video/tos/cn/tos-cn-ve-e5b010/oE0QSJebtDQ36EEoGkFfABgVw146LMIRhMDu5d/?a=24&ch=0&cr=0&dr=0&er=0&cd=0|0|0|0&br=2039&bt=2039&cs=0&ds=4&ft=WbaUMqBrffPdO.~SN1jNvAq-antLjrKf8OmCRkaoNdDGejVhWL6&mime_type=video_mp4&qs=0&rc=OjNkZDZpN2YzaDc8OTk4Z0BpM2pvaHE5cnFnNTUzNDs6M0AvYV8yNmI0Xy4xLjBhYTJiYSMzcWcxMmRjMjZhLS1kNjBzcw==&btag=c0000e00020000&dy_q=1754487078&feature_id=59cb2766d89ae6284516c6a254e9fb61&l=20250806213118FED434DC586C77EAE0B5"></video>
不支持的音频/视频格式
请试试刷新
<button type="button" class="xg-icon-play"></button>
<svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78">
</svg>重播
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
播放
00:00
/
00:00
直播
<button type="button" class="xg-get-fullscreen"></button><button type="button" class="xg-exit-fullscreen"></button>
进入全屏
<button type="button" class="xg-volume-small"></button><button type="button" class="xg-volume"></button><button type="button" class="xg-volume-mute"></button>
50
<svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 20 20">
</svg>
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
Prompt: Venice by Vaporetto. The canals of Venice are recreated with painstaking detall. Thewater has realistic reflections and wakes, The buildings show crumbling plaster and centuriesof weathering. The scene is populated with other gondolas, water taxis, and barges.
提示词威尼斯的汽船。威尼斯的运河以精心细致的细节重新创造。水面有逼真的反射和波纹。建筑物显示出剥落的灰泥和数百年的风化。场景中还有其他贡多拉船、水上出租车和驳船。
实时响应和长时间一致性
这一次 Genie 3 的进化最大的亮点在于实时响应的用户交互,以及能够长达数分钟的场景(三维)一致性。
为了实现 Genie 3 在可控性和实时交互性方面的高水平表现,谷歌在技术上取得了一系列的重大突破。
在每一帧的自回归生成过程中,模型需要持续考虑随着时间增长的轨迹信息。例如,当用户在一分钟后再次回到某个地点时,模型必须能够回溯并引用一分钟前生成的相关信息。
而要实现真正的实时交互,这种计算必须每秒多次完成,以便及时响应不断到来的用户输入。
为了让 AI 生成的世界更具有沉浸感,环境在长时间尺度上必须保持物理一致性。然而,通过自回归方式生成环境比一次性生成整段视频在技术上要困难得多,因为误差往往会随时间逐步累积。
尽管面临这一挑战,Genie 3 所生成的环境在数分钟内仍能保持高度一致性,其视觉记忆能力最远可回溯至一分钟前的画面状态。
建筑物左侧的树木在整个交互过程中保持一致,即使它们进出视野也是如此。
虽作为世界模型,Genie 3 本质上仍是一个二维的图像 / 视频生成模型,与直接的三维场景生成具有显著的区别。
简单来说,Genie 3 的一致性是一种「涌现能力(emergent capability)」,能够生成更加丰富,动态,变化的世界,因为世界是基于世界描述和用户动作逐帧生成的。
而其他基于三维模型的方法,如 NeRF 和 Gaussian Splatting,同样可以生成具有一致性的可导航三维环境,但它们依赖于三维表示作为输入,显著限制了场景的丰富性。
可用提示词生成世界事件
除了导航输入外,Genie 3 还支持一种更具表现力的基于文本的交互形式,DeepMind 称之为可提示的世界事件(promptable world events)。
可提示的世界事件能够改变已经生成的世界,例如改变天气状况或引入新的物体和角色,从而增强导航控制的体验。
这种能力也能增加反事实(counterfactual)的广度,即能让玩家更自由畅想「如果这样会怎样」的场景。这些场景可以被 agent 根据学习过的经验来处理意外情况。
局限性
虽然 Genie 3 堪称前所未有的世界模型,但局限性依然存在,具体包括:
- 动作空间有限。尽管可提示的世界事件允许进行广泛的环境干预,但这些干预不一定由 agent 自身执行。agent 可以直接执行的动作范围目前受到限制。
- 其他 agent 的交互与模拟。在共享环境中准确建模多个独立 agent 之间的复杂交互仍然很难。
- 真实世界位置的准确表示。Genie 3 目前无法以完美的地理精度模拟真实世界位置。
- 文本渲染。通常只有在输入的世界描述中提供时,才能生成清晰易读的文本。
- 交互时间有限。目前 Genie 3 支持几分钟的连续交互,而非数小时。
未来值得期待
谷歌 DeepMind 也在博客中透露了他们对于 Genie 3 以及在世界模型这个研究方向上的未来计划。
他们表示:「我们相信 Genie 3 是世界模型的重要时刻,它将开始对 AI 研究和生成式媒体等多个领域产生影响。为此,我们正在探索如何在未来让更多测试者使用 Genie 3。」
他们预计 Genie 3 将为教育和培训创造新的机会,帮助学生学习和专家积累经验。比如,Genie 3 可以让你探索古希腊的街道:
<video class="" playsinline="true" x5-playsinline="true" webkit-playsinline="true" tabindex="2" mediatype="video" src="https://v9-web.toutiaovod.com/37b98eb492c31c3a7dde8fe4673af25b/68936765/video/tos/cn/tos-cn-ve-e5b010/okEyJeJDGQfXzqvBQRaAdZMkWD8gTCeUkIulbY/?a=24&ch=0&cr=0&dr=0&er=0&cd=0|0|0|0&br=1758&bt=1758&cs=0&ds=4&ft=hGkwBy6LRR0s~dC52Dv2Nc.xBiGNbLxyC8dU_4H1XwTJNv7TGW&mime_type=video_mp4&qs=0&rc=NWhkaTNlPGlnNmRlNzU6NUBpajRxeG45cjtnNTUzNDs6M0A0YDQtYzQtNWIxMDAwMS81YSNrbXJnMmRjMzZhLS1kNi9zcw==&btag=c0000e00020000&dy_q=1754487078&feature_id=59cb2766d89ae6284516c6a254e9fb61&l=20250806213118CD3817C7B9630DC5AAF7"></video>
不支持的音频/视频格式
请试试刷新
<button type="button" class="xg-icon-play"></button>
<svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78">
</svg>重播
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
播放
00:00
/
00:00
直播
<button type="button" class="xg-get-fullscreen"></button><button type="button" class="xg-exit-fullscreen"></button>
进入全屏
<button type="button" class="xg-volume-small"></button><button type="button" class="xg-volume"></button><button type="button" class="xg-volume-mute"></button>
50
<svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 20 20">
</svg>
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
它不仅能提供广阔的空间来训练机器人和自主系统等智能体,还能使评估智能体性能、探索其弱点成为可能。
比如在下面的视频中,为了探索智能体训练的潜力,DeepMind 将 SIMA 智能体置于 Genie 3 世界中,并设定了目标。智能体会采取行动,Genie 3 能在不知道目标的情况下模拟该世界中的响应。这对于构建更强大的具身智能体至关重要。
<video class="" playsinline="true" x5-playsinline="true" webkit-playsinline="true" tabindex="2" mediatype="video" src="https://v3-web.toutiaovod.com/5eb40154dee1df772424b1bdeaa8f8d9/68936746/video/tos/cn/tos-cn-ve-e5b010/ogAOqI0BiC45UkpdnGEPp0fSLAeg0ReGemTVL8/?a=24&ch=0&cr=0&dr=0&er=0&cd=0|0|0|0&br=1870&bt=1870&cs=0&ds=4&ft=hGkwBy6LRR0s~dC52Dv2Nc.xBiGNbLxyC8dU_4U1XwTJNv7TGW&mime_type=video_mp4&qs=0&rc=aDw8ZDlpOGhnODs0aTtkZkBpajw0b3E5cm9nNTUzNDs6M0AwYGBiMjA2NTQxM2M0NS1fYSM0aTNeMmQ0NDZhLS1kNmFzcw==&btag=c0000e00010000&dy_q=1754487078&feature_id=59cb2766d89ae6284516c6a254e9fb61&l=20250806213118F241DD092A860B28ADD7"></video>
不支持的音频/视频格式
请试试刷新
<button type="button" class="xg-icon-play"></button>
<svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78">
</svg>重播
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
播放
00:00
/
00:00
直播
<button type="button" class="xg-get-fullscreen"></button><button type="button" class="xg-exit-fullscreen"></button>
进入全屏
<button type="button" class="xg-volume-small"></button><button type="button" class="xg-volume"></button><button type="button" class="xg-volume-mute"></button>
50
<svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 20 20">
</svg>
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
从 2018 年的 GQN 到如今的 Genie 3,世界模型,或者如 DeepMind 研究副总裁、深度学习领导者 Oriol Vinyals 说的「神经视频游戏」,已经实现了令人难以置信的进化。
或许未来,谷歌真的能造出《星际迷航》中的全息甲板!
DeepMind CEO、诺奖得主 Demis Hassabis 的推文
对于 Genie 3 世界模型,你有什么看法?
参考链接
https://x.com/GoogleDeepMind/status/1952732150928724043
https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
文中视频链接:
https://mp.weixin.qq.com/s/iI0-UDW70nOqyRb95WuZNw