OmniGen2是什么
OmniGen2 是北京智源人工智能研究院推出的开源多模态生成模型。能根据文本提示生成高质量图像,支持指令引导的图像编辑,比如修改背景或人物特征等。OmniGen2 采用双组件架构,结合视觉语言模型(VLM)和扩散模型,实现对多种生成任务的统一处理。优势在于开源免费、高性能以及强大的上下文生成能力,适用于商业、创意设计和研究开发等场景。

OmniGen2的主要功能
-
文本到图像生成:能根据文本提示生成高保真度和美观的图像。在多个基准测试中表现出色,例如在 GenEval 和 DPG-Bench 上的得分分别为 0.86 和 83.57。
-
指令引导的图像编辑:支持复杂的指令驱动的图像修改,包括局部修改(如改变衣服颜色)和整体风格转换(如将照片转换为动漫风格)。在图像编辑任务中,OmniGen2 在多个基准测试中实现了编辑准确性与图像保真度的平衡。
-
上下文生成:能处理和灵活结合多种输入(如人物、参考物体和场景),生成新颖且连贯的视觉输出。在 OmniContext 基准测试中,OmniGen2 在视觉一致性指标上超越现有开源模型 15% 以上。
-
视觉理解:继承了 Qwen-VL-2.5 基础模型强大的图像内容解析和分析能力。
OmniGen2的技术原理
-
双路径架构:OmniGen2 采用了独立的文本和图像解码路径,分别处理文本和图像模态。文本生成部分基于 Qwen2.5-VL-3B 多模态语言模型(MLLM),图像生成通过一个独立的扩散 Transformer 模块完成。避免了文本生成对图像质量的负面影响。
-
扩散 Transformer:图像生成部分采用了一个 32 层的扩散 Transformer,隐藏维度为 2520,总参数量约 40 亿。该模块使用修正流(Rectified Flow)方法进行高效图像生成。
-
Omni-RoPE 位置编码:OmniGen2 引入了一种新颖的多模态旋转位置嵌入(Omni-RoPE),将位置信息分解为序列和模态标识符、二维高度坐标和宽度坐标。能精确编码图像中每个位置的信息,同时支持多图像空间定位和身份区分。
-
反思机制:OmniGen2 设计了专门的反思机制,用于提升生成图像的质量和一致性。模型能自我评估生成结果,在多个轮次中进行改进。
-
训练策略:OmniGen2 采用分阶段训练方法,首先在文字转图像任务上预训练扩散模型,然后引入混合任务训练,最后进行反思能力的端到端训练。
-
数据处理:训练数据从视频中提取,经过多重过滤,包括 DINO 相似性过滤和 VLM 一致性检查,确保数据质量。
OmniGen2的项目地址
- 项目官网:https://vectorspacelab.github.io/OmniGen2/
- Github仓库:https://github.com/VectorSpaceLab/OmniGen2
- arXiv技术论文:https://arxiv.org/pdf/2506.18871
OmniGen2的应用场景
- 设计概念生成:设计师可以通过简单的文本描述,快速生成设计概念图和草图。
- 故事创作辅助:内容创作者可以根据故事的情节和角色描述,生成相应的场景和角色图像。
- 视频制作素材生成:创作者可以生成各种场景、角色动作和特效图像,然后将其导入到视频编辑软件中,用于制作动画、特效视频或实拍视频的补充素材。
- 游戏场景和角色生成:开发者可以通过文本描述快速生成游戏中的场景和角色。
- 教学资源生成:教育工作者可以根据教学内容生成相关的图像和示意图。例如在讲解历史事件时,生成与之相关的古代战争场景或历史人物图像。