终于等来Kontext开源模型了。
这个模型的API已经出来一段时间了,效果很好。因为效果很好,所以感觉开源无望,没想到有意外惊喜,开源模型突然就来了。 这应该是近期可玩性最强的图片编辑模型了。
先快速来看一下 fluxKontext 有哪些特征:
从这个亮点来看,这个模型的功能非常清晰,就是冲着智能P图去的。
下面快速预览下效果和应用场景:
风格转换:
- 提示词:Transform to 1960s pop art style with bright colors, bold graphics, and commercial aesthetics
添加文本:
- 提示词: Add ASCII style text only the single word "In" no additional letters to the display
移除对象:
风格参考:
视角切换:
- 提示词:Rotate the camera 180 degrees to view directly from behind the dog, showing its back and tail while maintaining the same 3D style
多轮编辑:
多图合成:
改变光:
模型介绍得差不多了,接下来,说说本地安装。
准备工作
配备大显存N卡的电脑一台!
硬件是必须的,其它都是小问题。
我分别在5060TI 16G和3090 24上安装和运行了。
首次运行确保5060可有运行,二次运行是在3090上,下面截图主要也是3090上的截图。
安装软件
全新安装
flux的安装方式有非常多种:
使用桌面程序,傻瓜式安装,理论上最适合新手最简单。
Windows便携包,解压即安装,所有东西都在一个压缩包里面。
手动安装,自己把控全程,有一定难度。
从上面的介绍来看,桌面应用最方便,但是它会在线加载依赖,可能因为网络问题出现各种问,出现问题了,也不好排查和干预,所以有时候反而不方便。
所以,我还是推荐第二种,直接下载7z压缩包。
下载到本地之后,直接解压。
解压方式,推荐的是使用7-zip这个免费无广告的压缩包管理软件。如果不想装,可以用Windows自带的解压功能。
在压缩包文件上右键,点击全部解压缩。
通过浏览选择一个路径,然后点击提取就可以了。自带的工具,提取会消耗比较多资源,进入假死状态,需要保证C盘空间充足。
点击run_nvidia_gpu.bat启动软件。
这是一个完整的软件包,不需要自己配置任何东西。解压完成之后,进入ComfyUI_windows_portable 这个文件夹,点击上图中的Bat脚本就可以启动软件了
启动日志如下:
这里面需要确认一下Pytorch版本,只有2.7+cu128才支持RTX50系列显卡。最新版压缩包,默认就支持50系列。当出现http...之后,表示启动成功,然后程序会自动调用本地浏览器,打开这个地址。
老版本升级
如果你电脑上之前安装过ComfyUI,不想重新下载和安装,那么可以选择升级本地版。
找到ComfyUI的解压目录 ,找到update。
然后点击updat_comfyui_stable.bat 等待 运行结束!
正常来说,这样就可以了。但是由于rtx5060等50系列显卡对应的CUDA版本已升级了。所以需升级Pytorch的版本,来适配新显卡。
具体操作是,打开python_embeded这个文件夹。
这里面有一个独立的Python环境,需要更新这个环境的pytorch依赖包。
可以在文件资源管理器的地址栏,输入CMD 按回车,打开CMD并自动定位到这个文件夹。
然后输入命令:
python.exe -m pip install -U torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
命令执行会,需要在线下载几个G的文件,下载完成,会自动安装。安装完成之后,就可以正常使用ComfyUI最新版了,新版默认支持Flux Kontext 图像编辑功能。
打开工作流
ComfyUI的所有的操作都基于工作流, fluxKontext 这个P图模型,也有它自己的工作流,而且官方软件里面自带了这个工作流。
下面看一下如何打开这个工作流。
在网页中找到工作流菜单,打开菜单,找到浏览模板,点击一下。
找到Flux,然后点击第一个“小兔子”的工作流。这里有两个关于Kontext的工作流,我们先用第一个。
载入之后,工作流如下:
然后只要选择一下参考图片,输入修改提示词,点击一下运行就可以了。
下载模型
由于第一次使用这个模板,本地并没有对应的模型。所以打开工作流的时候,就会自动提示你下载模型。
这里主要涉及到四个模型,可以点击下载按钮开始下载。下载完成之后放到对应的文件夹里面。
具体放哪里,可以参考下面的提示:
在我们解压的软件目录下面找到ComfyUI,它下面有个models文件夹,models文件又有很多字子文件夹。所有模型都分类放在这些子文件夹里面。
设置工作流
模型放到对应的路径之后,我们需要对工作流进行一定的设置。
首先是刷新节点定义,刷新之后工作流,才能识别到模型。
点击编辑菜单,然后点击刷新自定义节点。
然后是选择模型
由于我们完全是按工作流预设的模型来进行下载,所以只要我们把模型放到了对应路径,刷新节点之后,基本无需修改,直接就可以使用了。
如果你需要更换模型,就是在上面的区域中下拉来选择模型。
上传参考图片
既然是P图,就肯定有原图,这里也叫参考图片。点击选择文件上传,选择一个预先准备好的图片。
我这里选择的是一张展开翅膀的Model X的图片。
设置提示词
有了图片之后,需要描述P图的内容。比如把这辆车的颜色换成红色。
模型,图片,提示词,全部设置完,工作流的设置就完成了。
运行工作流
一切就绪之后,就可以点击运行了。
点击有运行之后,会依次加载图片,模型,提示词,然后生成原图的预览图和最终图片。
结果如下:
效果非常牛逼!
我特地选了一张背景雪白色的图片,它成功识别了车辆,并进行了颜色替换 ,修改主体目标区域颜色的同时,其他全部不动。这种一致性,才是P图的关键。如果让gpt4o去P图,往往主体会发生一些变化。
运行过程中和运行完成之后的记录可以在队里中查看。
运行过程中占用显存情况如下:
3090上24G用了18.7G
5060TI上16G显存用了14.8G
由于两个都没有使用共享GPU内存,所以我合理推测,5060TI是的16G显存跑这个fp8模型可能是够用的,并没有退一步放到CPU上去跑。
生成图片的时间如下:
3090 首次运行用了86秒,其中生产图片用了63秒。
5060ti 首次运行用了131秒,其中生产图片用了93秒。
P一张图片大概在 一分钟出头,效果比我P的好,时间比我用的少,而且 不需要花钱调用第三方API,纯本地运行。相当不错!
通过上面的教程,我相信大部分都可以轻松搞定。这样我们本地就有一个完全离线的AI P图工具了。工作流设置好之后,只要拖个图片,描述一下操作,就可以轻松完成批图了。
最后,相关的软件和模型,已放在网盘!
Flux Kontext 软件,模型,工作流:https://pan.baidu.com/s/1Xy_Q8WT37bNCjcF5lsBCHw?pwd=tony
参考链接:
https://blog.comfy.org/p/flux1-kontext-dev-day-0-support
https://docs.comfy.org/zh-CN/tutorials/flux/flux-1-kontext-dev