AI热点 2 hours ago 68 Views 0 Comments

震撼,世界模型第一次超真实地模拟了真实世界:谷歌Genie 3昨晚抢了OpenAI风头

AI中国
AI中国

Published 8189 Articles

昨晚十点,谷歌 DeepMind 重磅宣布其 Genie 世界模型系列正式来到了第 3 代。

Genie 3是我们突破性的世界模型,可以通过单个文本提示词创建交互式、可玩的环境。从照片般逼真的风景到奇幻的境界,可能性无穷无尽。」

据介绍,在 Genie 3 生成的动态世界中,玩家可以每秒 24 帧的速度实时导航,在 720p 分辨率下保持几分钟的一致性

相比于前一代 Genie 2 世界模型、使用扩散模型的游戏生成引擎 GameNGen 以及视频生成模型 Veo,最新的 Genie 3 在多个特性上都具有明显优势。

比如,相比 Genie 2,最新一代 Genie 实现了分辨率的显著提升,达到了实际可用的程度,同时还支持使用提示词生成世界事件,并能维持数分钟的一致性(DeepMind 将其称为「交互视界」)。更重要的是,Genie 3 还能做到实时响应。

而相比于专用于游戏生成的 GameNGen,Genie 3 更加通用,同时在分辨率等其它指标上都远远胜之。

最后与 Veo 3 对比,虽然 Genie 3 在分辨率这一点上还有不足,但在其它方面却优势明显。

Genie 3 一宣布就激起夸声一片。

Genie 3 团队的 Matt McGill 分享的「低头看鞋子……看模型是否理解水坑是什么」的视频更是引发了一片热议——其真实感超乎想象。

一时间,风头甚至盖过了近段时间来备受期待的 OpenAI 开源模型。

下面,我们来看看 Genie 3 生成的一些具体能力。

Genie 3 的能力

作为最新前沿的世界模型,Genie 3 具备构建一个完整世界的全部能力,并且能够在较长时间范围内保证生成的世界连贯且可交互,其功能包括:

  • 模拟世界的物理属性:展现自然现象如水与闪电,以及复杂的环境交互。
  • 模拟自然世界:生成充满活力的生态系统,从动物行为到复杂的植物生命。
  • 建模动画和小说:激发想象力,创造奇幻场景和富有表现力的动画角色。
  • 建模不同地点和历史背景:超越地理和时间的界限,探索各地和历史场景。

实时响应和长时间一致性

这一次 Genie 3 的进化最大的亮点在于实时响应的用户交互,以及能够长达数分钟的场景(三维)一致性。

为了实现 Genie 3 在可控性和实时交互性方面的高水平表现,谷歌在技术上取得了一系列的重大突破。

在每一帧的自回归生成过程中,模型需要持续考虑随着时间增长的轨迹信息。例如,当用户在一分钟后再次回到某个地点时,模型必须能够回溯并引用一分钟前生成的相关信息。

而要实现真正的实时交互,这种计算必须每秒多次完成,以便及时响应不断到来的用户输入。

为了让 AI 生成的世界更具有沉浸感,环境在长时间尺度上必须保持物理一致性。然而,通过自回归方式生成环境比一次性生成整段视频在技术上要困难得多,因为误差往往会随时间逐步累积。

尽管面临这一挑战,Genie 3 所生成的环境在数分钟内仍能保持高度一致性,其视觉记忆能力最远可回溯至一分钟前的画面状态。

建筑物左侧的树木在整个交互过程中保持一致,即使它们进出视野也是如此。

虽作为世界模型,Genie 3 本质上仍是一个二维的图像 / 视频生成模型,与直接的三维场景生成具有显著的区别。

简单来说,Genie 3 的一致性是一种「涌现能力(emergent capability)」,能够生成更加丰富,动态,变化的世界,因为世界是基于世界描述和用户动作逐帧生成的。

而其他基于三维模型的方法,如 NeRF 和 Gaussian Splatting,同样可以生成具有一致性的可导航三维环境,但它们依赖于三维表示作为输入,显著限制了场景的丰富性。

可用提示词生成世界事件

除了导航输入外,Genie 3 还支持一种更具表现力的基于文本的交互形式,DeepMind 称之为可提示的世界事件(promptable world events)。

可提示的世界事件能够改变已经生成的世界,例如改变天气状况或引入新的物体和角色,从而增强导航控制的体验。

这种能力也能增加反事实(counterfactual)的广度,即能让玩家更自由畅想「如果这样会怎样」的场景。这些场景可以被 agent 根据学习过的经验来处理意外情况。

局限性

虽然 Genie 3 堪称前所未有的世界模型,但局限性依然存在,具体包括:

  • 动作空间有限。尽管可提示的世界事件允许进行广泛的环境干预,但这些干预不一定由 agent 自身执行。agent 可以直接执行的动作范围目前受到限制。
  • 其他 agent 的交互与模拟。在共享环境中准确建模多个独立 agent 之间的复杂交互仍然很难。
  • 真实世界位置的准确表示。Genie 3 目前无法以完美的地理精度模拟真实世界位置。
  • 文本渲染。通常只有在输入的世界描述中提供时,才能生成清晰易读的文本。
  • 交互时间有限。目前 Genie 3 支持几分钟的连续交互,而非数小时。

未来值得期待

谷歌 DeepMind 也在博客中透露了他们对于 Genie 3 以及在世界模型这个研究方向上的未来计划。

他们表示:「我们相信 Genie 3 是世界模型的重要时刻,它将开始对 AI 研究和生成式媒体等多个领域产生影响。为此,我们正在探索如何在未来让更多测试者使用 Genie 3。」

他们预计 Genie 3 将为教育和培训创造新的机会,帮助学生学习和专家积累经验。比如,Genie 3 可以让你探索古希腊的街道:

它不仅能提供广阔的空间来训练机器人和自主系统等智能体,还能使评估智能体性能、探索其弱点成为可能。

比如在下面的视频中,为了探索智能体训练的潜力,DeepMind 将 SIMA 智能体置于 Genie 3 世界中,并设定了目标。智能体会采取行动,Genie 3 能在不知道目标的情况下模拟该世界中的响应。这对于构建更强大的具身智能体至关重要。

从 2018 年的 GQN 到如今的 Genie 3,世界模型,或者如 DeepMind 研究副总裁、深度学习领导者 Oriol Vinyals 说的「神经视频游戏」,已经实现了令人难以置信的进化。

或许未来,谷歌真的能造出《星际迷航》中的全息甲板!

DeepMind CEO、诺奖得主 Demis Hassabis 的推文

对于 Genie 3 世界模型,你有什么看法?

参考链接

https://x.com/GoogleDeepMind/status/1952732150928724043

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:冷猫、Panda,36氪经授权发布。

AI中国

AI中国

8189 Articles 1309648 Views 950300 Fans

Comment (0)

睡觉动画