世界首个实时AI扩散视频模型炸场,Karpathy亲自站台,颠覆AI视频交互,0延迟+无限时长,每秒24帧不卡顿,MirageLSD首次实现AI直播级生成。
刚刚,世界上首个支持直播推流的「实时」扩散AI视频诞生。
大神Karpathy亲自站台宣传这个最新技术MirageLSD。
最火的「马斯克AI女友」可以直接秒变哥特风格、卡哇伊风格——注意是实时,而不是后期生成。
这就是DecartAI最新推出的MirageLSD:首个支持直播推流的实时扩散AI视频模型。
大神Karpathy说他是这个项目的天使投资人,看到团队能取得突破非常激动。
Karpathy还简单讲解了下什么是「实时扩散AI视频模型」。
比如我们熟悉的滤镜,就是一种实时视频效果。
简单的滤镜效果虽然是「实时」的,但也只能进行基本的重新着色和样式设置,本质上滤镜是「无法理解」视频内容的。
现在AI生成视频常用的扩散模型,比如谷歌的Veo3,已经很神奇了,它是能够「理解」想要生成的视频内容的。
但是唯一的缺点是生成过程比较慢需要好几分钟,效果好的视频需要时间更多。
MirageLSD则是一种完全不同的模型,它不是简单的叠加滤镜,而是理解真实视频后同步生成无限想象力的AI视频。
比如可以给你的狗穿上蜘蛛侠的衣服,或者将打斗场面直接变成星球大战。
也可以把厨房的风格变换为卡通,或者直接将手里的笔变成光剑。
这些画面都可以任意通过提示进行操控。
这给未来的视频娱乐、直播互动带来了丰富的想象力。
Karpathy本人就想了几个点子💡:
- 科幻片导演现场拍摄时,就可以直接测试成片的效果;
- 实时虚拟替换不同风格、不同背景下的衣服,比如直接穿着婚纱出现在礼堂;
- 例如情侣间通话时,将对话直接卡通化;
- 游戏画面直接切换,比如直接将黑神话悟空切换到老头环的交界地。
DecartAI给出几个官方演示视频,可以感受下这个「魔法般」的效果。
另外一个最有趣的应用就是,不用再担心直播设备不好,你可以直接将直播画面转化为全新场景,即使你的设备再差,也可以进行「完美直播」。
同时,Decart还提供了一个官方的体验网站,不过现在估计热度太高了,服务器一直无法连接。
毕竟是Karpathy亲自宣传,粉丝太多啦!
本周上线的是网页版,下周将上线iOS和安卓版本。
AI实时想象画面
MirageLSD是首个实现无限、实时视频生成且零延迟的系统。
它基于Decart自研的模型Live Stream Diffusion(LSD),能够在保持时间连贯性的同时逐帧生成视频。
与之前的方法不同,LSD支持完全交互式的视频合成——在视频生成的同时实现持续提示、变换和编辑。
当前的视频模型在生成超过20-30秒的视频时,会因误差累积而出现严重质量下降。
它们往往需要数分钟的处理时间才能生成短短几秒钟的输出内容。
即便是当下接近实时性能的最快系统,通常也只能分块生成视频,这会引入不可避免的延迟,从而无法满足交互式使用的需求。
误差积累导致质量迅速下降,从而有效限制了先前自回归视频模型的输出长度。
为了实时生成视频,LSD必须以「因果方式」运行——每一帧的生成仅基于之前已有的帧。
这种自回归结构虽然保证了连续性,却也引入了一个严重缺陷:误差累积。
每一帧都会继承前一帧的瑕疵,微小的误差不断积累,导致质量迅速下降,直至帧内容变得不连贯。
以往的视频模型要么生成固定且较短长度的视频,要么采用自回归生成,但会损失质量,因此仅限于生成较短的输出。
想要实时生成,LSD需要解决两个此前在单一系统中尚未被共同解决的挑战。
无限生成
MirageLSD是首个能够生成无限长度视频的视频生成模型。
模型的自回归特性使其容易累积误差,从而限制了输出的长度。为了实现无限自回归生成:
- 基于DiffusionForcing技术进行构建,该技术支持逐帧去噪。
- 引入了历史增强技术,其中模型在经过损坏的历史帧输入上进行微调。这使其能够预测并修正输入中的伪影,从而增强其对自回归生成中常见漂移的鲁棒性。
这些特点使LSD成为首个能够无限生成视频。
实现「实时」性能
实时生成要求每一帧的生成时间不超过40毫秒,以避免被肉眼察觉。通过以下方式实现这一目标:
- 设计自定义的CUDA超大内核,以最大限度地减少开销并提高吞吐量。
- 在快捷蒸馏和模型剪枝的基础上,减少了每帧所需的计算量。
- 优化模型架构以与GPU硬件对齐,实现最高效率。
这些技术共同作用,使响应速度比之前的模型提高了16倍,从而实现了每秒24帧的实时视频生成。
AI视频仍然缺少交互性
像MovieGen、WAN和Veo这样的定长模型可以生成高质量的视频片段,但它们的非因果设计和全片段推理会引入延迟,并且无法实现实时交互或超出预定义长度的扩展。
这意味着AI视频缺少交互性。
诸如CausVid、LTX和Seeweed-APT之类的自回归模型通过将每个块的生成依赖于先前的输出来生成更长的序列。
虽然这种方法提高了可扩展性,但分块推理仍然限制了响应速度,并存在误差累积的问题,限制了生成长度,排除了真正的交互可能性。
可控生成方法,包括ControlNet和基于LoRA的适配器,能够实现目标编辑和风格迁移,但需要离线微调,不适合实时逐帧提示。
Decart之前的系统Oasis展示了在受限领域内首个实时因果生成。
实时扩散模型MirageLSD将其扩展到开放领域、可提示的视频,实现零延迟、实时速度和无限稳定性——这是之前的工作未能同时实现的组合。
MirageLSD可以将现实世界中的实物转化为流媒体中的神话物品——将棍棒打斗变成光剑表演。
扩散模型通过逐步去除随机噪声来生成图像或视频。
在视频生成过程中,这通常意味着一次性生成固定长度的片段,这种方法有助于保持时间一致性,但会引入延迟。
一些系统试图通过按顺序生成帧块来提高灵活性,这种技术被称为自回归生成。
然而,每个帧块仍需完全生成后,模型才能响应新的输入,从而限制了交互性和实时应用。
LSD采用了一种不同的方法。
它一次生成一帧画面,使用因果关系的自回归结构,其中每一帧都依赖于先前生成的帧和用户提示。
这种方式实现了即时反馈、零延迟交互,并且视频生成可以持续进行而无需预定义终点。
这种因果反馈循环使LSD能够保持时间一致性,持续适应运动和内容,并在实时响应用户提示的同时生成无限视频序列。
此外,它还能让LSD即时响应输入内容——无论是文本提示还是视频内容的变化——且实现零延迟。
这使得实时编辑和转换成为可能。
为了实现这一点,Decart使用了扩散强制(Diffusion Forcing)——一种预训练方法,其中训练视频的每一帧都独立添加噪声。
这教会了模型在不依赖完整视频上下文的情况下对单帧进行去噪,从而实现了逐帧生成。
打开LSD的「发动机舱盖」
LSD的神奇之处在于:能够在严格的延迟预算(低于40毫秒)内独立生成每一帧,以支持持续的24FPS生成。
这在模型设计和系统执行方面都带来了重大挑战。
首先,高质量的扩散模型在计算上非常密集。
它们通常需要大量的参数数量,以及每帧需要多次迭代的去噪步骤。
每一步都需要通过模型进行一次完整的前向传播,从而导致每帧产生大量的浮点运算(FLOPs)。
其次,与离线生成流水线不同,LSD必须满足严格的每帧延迟约束。
这些约束与现代GPU的架构方式根本相悖:它们优先考虑高吞吐量和大规模批处理执行,而非低延迟的单样本推理。
挑战包括内核启动开销、在连续层之间重叠计算的机会有限,以及对内存传输延迟的敏感性增加,尤其是在多设备设置中。
为了解决这些问题,Decart采用了一个三管齐下的优化策略:
Hopper优化的超大内核:通过利用类似于MegaKernels的若干新兴技术,针对NVIDIA Hopper GPU架构优化了模型执行,以在小批量尺寸限制下最小化每层模型的延迟。进一步在这些内核中集成了GPU-GPU通信,以保证设备之间无缝通信,并通过计算操作进行掩蔽。
架构感知剪枝:将模型架构与系统级优化紧密集成,可以在每次模型执行时减少所需的FLOPs数量,同时通过高级技术更好地利用张量核心。这些技术将参数大小调整为特定GPU常量,并使用专用硬件支持进一步挖掘模型权重中的稀疏性。这些剪枝方法旨在根据底层GPU架构调整模型架构,以最大化GPU的利用率,同时通过微调模型使其对移除各种参数具有鲁棒性,从而减少整体所需的FLOPs数量。
快捷蒸馏:为了减少生成所需的扩散步骤数量,应用了快捷蒸馏方法,训练较小的模型以匹配较大教师模型的去噪轨迹。该方法显著减少了每帧所需的模型评估次数,同时保持了输出质量与时间一致性。更重要的是,它避免了在长序列中引入新的伪影或漂移。
这些技术共同使LSD能够将高保真视频扩散的延迟从每个片段几秒降低到每帧不到40毫秒,从而实现真正实时、可交互的生成。
参考资料:
https://about.decart.ai/publications/mirage
https://x.com/karpathy/status/1945979830740435186
文章来自于微信公众号“新智元”。