Midjourney操作界面

昆仑万维开源SkyReels-V2:无限时长电影生成模型

4.8
0热度
SkyReels

昆仑万维 SkyReels 团队正式发布并开源了 SkyReels-V2,这是全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型。该模型通过结合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强迫框架来实现协同优化,标志着视频生成技术迈入了一个新的阶段。SkyReels-V2的发布旨在解决现有视频生成技术在提示词遵循、视觉质量、运动动态和视频时长协调上的

昆仑万维 SkyReels 团队正式发布并开源了 SkyReels-V2,这是全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型。该模型通过结合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强迫框架来实现协同优化,标志着视频生成技术迈入了一个新的阶段。

SkyReels-V2的发布旨在解决现有视频生成技术在提示词遵循、视觉质量、运动动态和视频时长协调上的重大挑战。该模型不仅在技术上实现了突破,还提供了多种应用场景,包括故事生成、图生视频、运镜专家和多主体一致性视频生成(SkyReels-A2)。SkyReels-V2现已支持生成30秒、40秒的视频,并具备生成高运动质量、高一致性、高保真视频的能力。

微信截图_20250421110023.png

SkyReels-V2的核心技术创新包括:

  1. 全面的影视级视频理解模型 SkyCaptioner-V1:通过结构化的视频表示方法,结合多模态 LLM 的一般描述与子专家模型的详细镜头语言,显著提高了对镜头语言的理解能力。该模型能够高效地理解视频数据,生成符合原始结构信息的多样化描述。

  2. 针对运动的偏好优化:通过强化学习训练,使用人工标注和合成失真数据,解决了动态扭曲、不合理等问题。SkyReels-V2在运动动态方面表现出色,能够生成流畅且逼真的视频内容。

  3. 高效的扩散强迫框架:通过微调预训练的扩散模型,将其转化为扩散强迫模型,显著提高了生成效率。该方法不仅减少了训练成本,还实现了长视频的高效生成。

  4. 渐进式分辨率预训练与多阶段后训练优化:整合了来自通用数据集、自收集媒体和艺术资源库的亿级数据,通过多阶段优化方法,确保了 SkyReels-V2在资源有限的情况下,逐步提升多方面的表现,达到影视级视频生成的水准。

在性能评估方面,SkyReels-V2在 SkyReels-Bench 和 V-Bench 中表现出色。SkyReels-Bench 包含1020个文本提示词,系统性地评估了四个关键维度:指令遵循、运动质量、一致性和视觉质量。在 SkyReels-Bench 评估中,SkyReels-V2在指令遵循方面取得了显著进展,同时在保证运动质量的同时不牺牲视频的一致性效果。在 V-Bench1.0自动化评估中,SkyReels-V2在总分(83.9%)和质量分(84.7%)上均优于所有对比模型,包括 HunyuanVideo-13B 和 Wan2.1-14B。

SkyReels-V2的应用场景丰富多样,包括:

  1. 故事生成:通过滑动窗口方法,模型在生成新帧时会参考之前生成的帧和文本提示,支持时间上的扩展,生成具有连贯叙事的长镜头视频。

  2. 图像到视频合成:提供了两种图像到视频(I2V)的生成方法,包括微调全序列文本到视频(T2V)扩散模型和扩散强迫模型与帧条件结合的方法。

  3. 摄像导演功能:通过专门筛选的样本,确保基本摄像机运动及其常见组合的平衡表示,显著提升了摄影效果。

  4. 元素到视频生成:基于 SkyReels-V2基座模型,研发了 SkyReels-A2方案,能够将任意视觉元素组合成由文本提示引导的连贯视频。

昆仑万维 SkyReels 团队表示,将继续推动视频生成技术的发展,并将 SkyCaptioner-V1和 SkyReels-V2系列模型进行完全开源,以促进学术界和工业界的进一步研究和应用。团队还将继续优化 SkyReels-V2的性能,探索更多应用场景,并进一步降低计算成本,使其能够更广泛地应用于创意内容制作和虚拟仿真领域。

  • GitHub地址:

    https://github.com/SkyworkAI/SkyReels-V2

  • 论文地址:

    https://arxiv.org/abs/2504.13074

  • SkyReels官网地址:

    https://www.skyreels.ai/home

点赞(0)

评论列表 共有 0 条评论

暂无评论
发表
评论
顶部