Ovis-U1是什么
Ovis-U1是阿里巴巴集团Ovis团队推出的多模态统一模型,拥有30亿参数。模型集成多模态理解、文本到图像生成和图像编辑三种核心能力,基于先进的架构和协同统一训练方式,实现高保真图像合成和高效的文本视觉交互。在多模态理解、生成和编辑等多个学术基准测试中,Ovis-U1均取得领先的成绩,展现出强大的泛化能力和出色的性能表现。

Ovis-U1的主要功能
- 多模态理解:支持理解复杂的视觉场景和文本内容,回答有关图像的问题,执行视觉问答(VQA)任务,及进行图像描述生成。
- 文本到图像生成:根据文本描述生成高质量的图像,支持多种风格和复杂的场景描述。
- 图像编辑:根据文本指令对图像进行精确编辑,包括添加、调整、替换、删除图像中的元素,及风格转换等。
Ovis-U1的技术原理
- 架构设计:
- 视觉解码器(Visual Decoder):基于扩散的Transformer架构(MMDiT),从文本嵌入生成高质量图像。
- 双向令牌细化器(Bidirectional Token Refiner):增强文本和视觉嵌入之间的交互,提升文本到图像合成和图像编辑任务的性能。
- 视觉编码器(Visual Encoder):基于预训练的视觉编码器(如Aimv2-large-patch14-448),进行微调适应多模态任务。
- 适配器(Adapter):连接视觉编码器和多模态大语言模型(MLLM),对视觉和文本嵌入进行对齐。
- 多模态大语言模型(MLLM):作为模型的核心,处理文本和视觉信息,支持多种多模态任务。
- 统一训练方法:Ovis-U1在多模态理解、文本到图像生成和图像编辑任务上同时进行训练,基于共享知识提升模型的泛化能力。训练过程分为六个阶段,逐步优化模型在不同任务上的性能。每个阶段都有特定的任务和训练目标,逐步提升模型的多模态能力。
- 数据组成:
- 多模态理解数据:包括公开数据集(如COYO、Wukong、Laion、ShareGPT4V、CC3M)和内部开发的数据。
- 文本到图像生成数据:用Laion5B数据集和JourneyDB数据集,基于预训练模型生成详细的图像描述。
- 图像+文本到图像生成数据:涵盖图像编辑、参考图像驱动的图像生成、像素级控制的图像生成等多种任务的数据。
- 性能优化:在图像编辑任务中,调整文本和图像的引导系数(CFG),实现对编辑指令的精确控制。用多个基准测试(如OpenCompass、GenEval、DPG-Bench、ImgEdit-Bench、GEdit-Bench-EN)全面评估模型的多模态能力。
Ovis-U1的项目地址
- GitHub仓库:https://github.com/AIDC-AI/Ovis-U1
- HuggingFace模型库:https://huggingface.co/AIDC-AI/Ovis-U1-3B
- 技术论文:https://github.com/AIDC-AI/Ovis-U1/blob/main/docs/Ovis_U1_Report.pdf
- 在线体验Demo:https://huggingface.co/spaces/AIDC-AI/Ovis-U1-3B
Ovis-U1的应用场景
- 内容创作:Ovis-U1根据文本描述生成高质量图像和视频帧序列,为艺术家和视频编辑人员提供创意构思和内容构建的高效辅助工具,显著提升创作效率。
- 广告与营销:模型依据产品特点和目标受众描述生成吸引人的广告图像与宣传海报,为社交媒体营销创作图片和视频内容,助力品牌增强传播效果,吸引更多用户关注。
- 游戏开发:Ovis-U1依据游戏背景和角色描述生成游戏场景、角色及道具图像,为游戏设计提供创意灵感和初步素材。
- 建筑设计:Ovis-U1根据建筑风格和周边环境描述生成建筑概念图及室内场景和家具布置图像,帮助客户快速理解设计意图,辅助设计师高效展示设计方案,提高设计沟通效率。
- 科学研究:模型能生成复杂科学现象和数据的可视化图像及实验场景和设备图像,帮助研究人员更好地理解和展示研究成果。