Flex.2-preview – Ostris 推出的文本到图像扩散模型

发布了 8521 文章

Flex.2-preview是什么

Flex.2-preview 是Ostris开源的 80 亿参数文本到图像扩散模型，支持通用控制输入（如线条、姿态、深度）和内置修复功能。模型基于一个模型满足多种创意需求，支持长文本输入（512 个 token），支持基于 ComfyUI 或 Diffusers 库轻松使用。Flex.2-preview目前处于早期预览阶段，展现出强大的灵活性和潜力，适合创意生成和实验性开发。

Flex.2-preview的主要功能

文本到图像生成：根据输入的文本描述生成高质量图像，支持长达 512 个 token 的文本输入，支持理解复杂的描述生成对应的图像内容。
内置修复功能（Inpainting）：支持在图像的特定区域进行修复或替换，用户提供修复图像和修复掩码，模型在指定区域生成新的图像内容。
通用控制输入：支持多种控制输入，如线条图、姿态图和深度图，指导图像生成的方向。
灵活的微调能力：用户基于 LoRA（Low-Rank Adaptation）等技术对模型进行微调，适应特定的风格或任务需求。

Flex.2-preview的技术原理

扩散模型框架：基于逐步去除噪声的方式生成图像。模型从随机噪声开始，逐步学习如何转化为符合文本描述的图像。
多通道输入：
- 文本嵌入：将文本描述转换为模型理解的嵌入向量。
- 控制输入：基于额外的输入（如姿态图、深度图）引导图像生成的方向。
- 修复输入：结合修复图像和修复掩码，模型在指定区域生成新的内容。
16 通道潜在空间：模型用 16 通道的潜在空间，通道支持用在噪声输入、修复图像、修复掩码和控制输入。
优化的推理算法：基于高效的推理算法，如“指导嵌入器”（Guidance Embedder），显著提升生成速度，保持高质量的输出。