正处于风暴中心的LeCun,亲自出镜了!
在视频中,他介绍了V-JEPA 2的新进展,目标就是开发能改变AI与物理世界交互方式的世界模型。
可见,对于Meta刚刚发布的这个博客,LeCun真的格外用心。
最近,Meta要组建「超级智能」新团队、重金挖角Alexandr Wang、全力冲击AGI的消息,闹得是沸沸扬扬。
就在今天,Meta还被曝出提供了数千万美元的天价年薪,挖来了谷歌DeepMind首席研究员Jack Rae,同时还在招募AI语音初创公司Sesame AI的主管Johan Schalkwayk。
一切迹象都表明:LeCun似乎要在小扎那里坐冷板凳了?
就在这个当口,LeCun亲自出镜介绍V-JEPA 2的举动,无疑意义重大。
世界模型这条路,真的能走通吗?相对于其他大科技公司,在这条目前十分非主流的路线上,LeCun更像一个一意孤行的「孤勇者」。
前路是什么,谁都不知道。
LeCun曾这样透露:「通过训练系统预测视频中将要发生的事情,来理解世界如何运作的想法是非常古老的。我至少以某种形式研究了20年。」
在今年3月的2025美国数学会联合会议演讲上,LeCun也曾经说过,他折腾了20年,终于发现——
借用自回归预测的思路,像训练LLM那样训练生成式架构,去预测视频接下来会发生什么,是根本不可能的。
可以说,今天Meta的V-JEPA 2,正是20年磨一剑的成果。
V-JEPA 2登场!
刚刚,Meta宣布:V-JEPA 2正式发布!
这是首个基于视频训练的世界模型,不仅具备先进的视频理解与预测能力,还首次实现了零样本规划和机器人在新环境中的自主控制。
它的发布,代表着Meta朝着实现高级机器智能 (AMI) 和构建能在物理世界中运行的有用AI智能体的目标,迈出了下一步。
这也是LeCun一贯的理念:在我们迈向AMI的过程中,构建能像人类一样学习世界、规划未知任务、并灵活适应变化环境的AI系统,将至关重要。
V-JEPA 2有12亿参数,基于2022年首次提出的Meta 联合嵌入预测架构(JEPA) 构建。
此前的研究表明,JEPA 在图像和3D点云等模态上已有出色表现。
此次发布的V-JEPA 2,建立在去年发布的首个视频版V-JEPA基础上,进一步提升了动作预测和世界建模能力,使机器人能与陌生物体与环境互动并完成任务。
同时,Meta还同步发布了三个全新基准评估集,帮助评估模型在视频中的世界理解与推理能力。
网友:期待三年后的AGI
对于V-JEPA 2的发布,LeCun的支持者们,一如既往表示着赞许。
「听说,你也在组建一个复仇者联盟?三年后,我们或许会看到接近AGI的JEPA技术。」
有人说,V-JEPA是自己最喜欢的一个算法名称,请一定要继续。
有人问出了那个敏感问题:小扎会解雇你吗?还以为你已经离开Meta了……
也有犀利的评论表示,V-JEPA似乎只是另一个用于视频的基础模型,没有专有技术?而且Meta跟Scale AI的重组,是否表明Meta当前的AI政策失败了?
什么是世界模型?
在亲自出镜的视频中,LeCun再次解释了世界模型的概念。
如果你把一个网球抛向空中,重力会使它落回地面。如果它在空中盘旋、突然转向飞向另一个方向,或者自发地变成一个苹果,那才令人惊讶。
这种物理直觉并不是成年人经过多年教育后才获得的。在还不能完整表达句子之前,幼儿就已经通过观察周围的世界,发展出了这种直觉。
预测世界将如何回应我们的行动或他人的行动,是人类一直在使用的能力,尤其是当人们计划采取何种行动、如何应对新情况时。
比如穿过陌生的拥挤人群时,我们会朝目的地移动,同时尽力避免撞到沿途的其他人和障碍物。
打冰球时,我们会滑向冰球将要去的位置,而不是它当前所在的位置。
炒菜时,我们会思考还要让锅在火焰上停留多久,或者是否应该调低热量。
之所以能有这些直觉,都是来自我们对世界的内部模型。它同时充当了一个内部模拟器,使我们能够预测假设行动的结果,从而最终根据我们认为最能实现目标的方式,来选择最佳行动。
在采取行动之前,我们会利用自己的世界模型,来想象潜在的后果。
所以,如果我们想构建能「三思而后行」的AI智能体,最重要的就是让它们学会具备以下能力的世界模型。
理解:世界模型应该能够理解对世界的观察,包括识别视频中的物体、动作和运动等内容。
预测:世界模型应该能够预测世界将如何演变,以及如果智能体采取行动,世界将如何变化。
规划:基于预测能力,世界模型应该有助于规划实现特定目标的动作序列。
所以,怎样通过世界模型,让AI智能体中在物理世界中进行规划和推理?
Meta主要通过视频,训练出了世界模型V-JEPA 2。
之所以用视频,是因为它是关于世界丰富信息的重要来源,而且信息很容易获取。
V-JEPA 2的两阶段训练细节
V-JEPA 2是一个基于「联合嵌入预测架构」(JEPA)构建的时间模型,即通过视频数据,学习物理世界运作规律。
与传统AI模型不同,通过自监督学习,无需大量人工标注,即可从视频中学习。
它的核心组件包括:
· 编码器:输入原始视频,输出捕捉观察世界状态有用语义信息的嵌入
· 预测器:输入视频嵌入以及关于预测内容的额外上下文,输出预测嵌入
添加图片注释,不超过 140 字(可选)
具体来说,V-JEPA 2的训练分为两个阶段,逐步让模型从「理解世界」到「改变世界」。
第一阶段:无动作预训练
V-JEPA 2使用超100万小时视频和100万张图像,涵盖了丰富多样的视觉信息。
这些数据让模型学会了,关于世界运作方式的许多知识。
其中包括,人们如何与物体交互、物体在物理世界中的移动方式,以及物体之间的相互作用。
通过预训练,V-JEPA 2展现出惊人的能力。
比如,在动作识别任务Something-Something v2中,它通过轻量级注意力机制表现出色。
同样,通过在冻结的编码器和预测器特征上训练注意力读取器,V-JEPA 2在Epic-Kitchens-100动作预测任务中,刷新了SOTA。
它能够从第一人称视频,预测出未来1秒将执行的动作。
与语言模型结合后,它还在视频问答基准测试,如Perception Test和TempCompass中,创下了最新记录。
第二阶段:动作条件训练
第一阶段训练完成后,V-JEPA 2虽能够预测世界可能的演变,但这种预测并未考虑智能体即将采取的行动。
因此,在第二阶段预训练中,Meta加入了机器人数据,包括视觉观察(视频)和机器人执行的控制动作。
研究人员将这些数据纳入JEPA训练流程,通过向预测器提供动作信息。
在训练这些额外数据后,预测器学会在预测时考虑特定动作,并可用于控制。
令人惊叹的是,仅用62小时的机器人数据,V-JEPA 2就学会根据具体行动进行预测和规划。
精准规划,机器人「即插即用」
V-JEPA 2最激动人心的应用之一是,零样本机器人规划。
传统机器人模型,通常需要针对特定机器人和环境进行训练,而V-JEPA 2则不同。
它基于开源DROID数据集进行训练,可以直接部署到实验室的机器人上。
诸如,它可以完成抓取、拾取物体、放置到新位置等任务。
对于简单的任务,如拾取或放置物体,V-JEPA 2通过图像指定目标。
模型利用编码器获取当前状态和目标状态的嵌入,机器人通过预测器「想象」不同动作的结果,挑选最接近目标的动作执行。
这种「模型预测控制」的方式,让机器人每一步都更聪明。
而对于复杂的任务,如拾取并放置到正确位置,V-JEPA 2通过一系列视觉子目标引导机器人,类似于人类的视觉模仿学习。
在全新环境中,V-JEPA 2拾取和放置新物体的成功率达到65%–80%。
三大「物理理解」基准测试
此外,Meta团队同时发布了三个全新基准测试,用于评估现有模型从视频中理解和推理物理世界的能力。
IntPhys 2
IntPhys 2是对早期IntPhys基准升级,灵感来源于认知科学中幼儿学习直觉物理的方式。
它采用「违反预期范式」,通过游戏引擎生成视频对:两段视频在某一点之前完全相同,之后其中一段会出现违反物理规律的事件。
模型的任务是,识别哪段视频不合理。
人类在各种场景下,几乎能达到100%准确率,而当前视频模型表现几乎靠随机猜测。
MVPBench
MVPBench通过多项选择题,测试视频-语言模型的物理理解能力。
与其他视频问答基准不同,它专门设计了「最小变化对」——两段视觉上几乎相同的视频,搭配相同问题但答案相反。
模型只有在同时答对这对问题时,才能得分,这避免了依赖表面视觉或文本线索的「捷径」解法。
CausalVQA
CausalVQA专注于测试模型对物理世界因果关系的理解能力,涵盖了三类问题。
主要包括,反事实(如果……会发生什么)、预测(接下来可能会发生什么)和规划(接下来应采取什么行动以实现目标)。
研究发现,多模态模型在描述「发生了什么」时表现还不错,但在预测「本可以发生什么」或「接下来会发生什么」时,仍与人类存在较大差距。
下一步:通往高级机器智能!
对于世界模型,Meta接下来还将进行多个方向的深入探索。
目前,V-JEPA 2只能在单一时间尺度上进行学习和预测,但现实中许多任务需要跨多个时间尺度进行规划。
比如「装洗碗机」或者「烤一个蛋糕」,这就需要将整体任务拆解为一系列小步骤。
因此,Meta接下来将重点研究分层的JEPA模型,使其能够在不同的时间和空间尺度上进行学习、推理和规划。
另一个重要方向,就是开发多模态JEPA模型,使其不仅能通过视觉进行预测,还能融合听觉、触觉等多种感知能力,实现更全面的世界理解。
参考资料:
https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/ https://x.com/AIatMeta/status/1932808881627148450
文章来自公众号“新智元”