AI热点 3月前 160 浏览次数 0 评论

Flex.2-preview – Ostris 推出的文本到图像扩散模型

发布了 8521 文章

Flex.2-preview是什么

Flex.2-preview 是Ostris开源的 80 亿参数文本到图像扩散模型,支持通用控制输入(如线条、姿态、深度)和内置修复功能。模型基于一个模型满足多种创意需求,支持长文本输入(512 个 token),支持基于 ComfyUI 或 Diffusers 库轻松使用。Flex.2-preview目前处于早期预览阶段,展现出强大的灵活性和潜力,适合创意生成和实验性开发。

Flex.2-preview的主要功能

  • 文本到图像生成:根据输入的文本描述生成高质量图像,支持长达 512 个 token 的文本输入,支持理解复杂的描述生成对应的图像内容。
  • 内置修复功能(Inpainting):支持在图像的特定区域进行修复或替换,用户提供修复图像和修复掩码,模型在指定区域生成新的图像内容。
  • 通用控制输入:支持多种控制输入,如线条图、姿态图和深度图,指导图像生成的方向。
  • 灵活的微调能力:用户基于 LoRA(Low-Rank Adaptation)等技术对模型进行微调,适应特定的风格或任务需求。

Flex.2-preview的技术原理

  • 扩散模型框架:基于逐步去除噪声的方式生成图像。模型从随机噪声开始,逐步学习如何转化为符合文本描述的图像。
  • 多通道输入
    • 文本嵌入:将文本描述转换为模型理解的嵌入向量。
    • 控制输入:基于额外的输入(如姿态图、深度图)引导图像生成的方向。
    • 修复输入:结合修复图像和修复掩码,模型在指定区域生成新的内容。
  • 16 通道潜在空间:模型用 16 通道的潜在空间,通道支持用在噪声输入、修复图像、修复掩码和控制输入。
  • 优化的推理算法:基于高效的推理算法,如“指导嵌入器”(Guidance Embedder),显著提升生成速度,保持高质量的输出。

Flex.2-preview的项目地址

  • HuggingFace模型库:https://huggingface.co/ostris/Flex.2-preview

Flex.2-preview的应用场景

  • 创意设计:快速生成概念图、插画,助力艺术家和设计师实现创意。
  • 图像修复:修复照片瑕疵、填补缺失部分,适用于图像编辑。
  • 内容创作:生成广告、视频、游戏素材,提升内容制作效率。
  • 教育与研究:生成教学材料,提供 AI 研究实验平台。
  • 个性化定制:微调模型生成符合个人风格的图像,满足特定需求。

8521 文章 1372178 浏览次数 950300 粉丝

评论 (0)

热门作者

AI中国

AI中国

8521 文章 95.03万 关注

IT之家

IT之家

1221 文章 5.64K 关注

人人都是产品经理

人人都是产品经理

524 文章 5.87万 关注

钛媒体APP

钛媒体APP

453 文章 0 关注

36氪

36氪

414 文章 5.63K 关注

走路动画