Next-Frame Diffusion是什么
Next-Frame Diffusion(NFD)是北京大学和微软研究院联合推出的自回归视频生成模型,结合扩散模型的高保真生成能力和自回归模型的因果性和可控性。Next-Frame Diffusion基于块因果注意力机制(Block-wise Causal Attention)和扩散变换器(Diffusion Transformer)实现高效的帧级生成。模型在保持视频质量和连贯性的同时,实现超过30FPS的实时视频生成。模型引入、一致性蒸馏(Consistency Distillation)和推测性采样(Speculative Sampling)等技术,进一步提升采样效率。模型在大规模动作条件视频生成任务中表现出色,显著优于现有方法。

Next-Frame Diffusion的主要功能
- 实时视频生成:支持在高性能GPU上实现超过30FPS的实时视频生成,非常适合用在需要快速响应的交互式应用,如游戏、虚拟现实和实时视频编辑等场景。
- 高保真视频生成:在连续空间中生成高保真度的视频内容,相比传统的自回归模型,能更好地捕捉细节和纹理。
- 动作条件生成:根据用户的实时操作生成相应的视频内容,在交互式应用中具有极高的灵活性和可控性。
- 长期视频生成:支持生成任意长度的视频内容,适用需要长期连贯性的应用,如故事叙述或模拟环境。
Next-Frame Diffusion的技术原理
- 块因果注意力机制(Block-wise Causal Attention):模型的核心是块因果注意力机制,结合帧内的双向注意力和帧间的因果依赖。在每个帧内,模型进行双向自注意力操作,捕捉帧内的空间依赖关系。在帧间,模型保持因果性,每个帧只能依赖于之前的帧,确保生成的连贯性和因果一致性。
- 扩散模型与扩散变换器(Diffusion Transformer):模型基于扩散模型的原理,在逐步去噪的过程生成视频帧。扩散变换器(Diffusion Transformer)是NFD的关键组件,基于Transformer架构的强大建模能力处理视频的时空依赖关系。
- 一致性蒸馏(Consistency Distillation):为加速采样过程,引入一致性蒸馏技术,将图像领域的sCM(Simplified Consistency Model)扩展到视频领域,显著提高生成速度,保持生成内容的高质量。
- 推测性采样(Speculative Sampling):用相邻帧动作输入的一致性,提前生成未来几帧。如果后续检测到动作输入发生变化,丢弃推测性生成的帧,从最后一个验证帧重新开始生成,著减少推理时间,提高实时生成的效率。
- 动作条件输入(Action Conditioning):NFD基于动作条件输入来控制视频生成的方向和内容。动作输入可以是用户的操作指令、控制信号或其他形式的条件信息,模型根据输入生成相应的视频帧。
Next-Frame Diffusion的项目地址
- 项目官网:https://nextframed.github.io/
- arXiv技术论文:https://arxiv.org/pdf/2506.01380
Next-Frame Diffusion的应用场景
- 游戏开发:模型根据玩家操作实时生成动态的游戏环境,提升游戏体验。
- 虚拟现实(VR)和增强现实(AR):模型实时生成虚拟场景,为VR和AR应用提供沉浸式体验。
- 视频内容创作:模型生成高质量视频内容,适用广告、电影和电视剧制作。
- 自动驾驶和机器人:生成自动驾驶车辆或机器人在不同环境下的行为和场景,用在训练和测试。
- 教育和培训:生成虚拟实验环境,帮助学生进行科学实验和学习。