AI热点 2小时前 58 浏览次数 0 评论

阿里图像生成模型登顶 HuggingFace,一句话把马斯克“变老”

AI中国
AI中国

发布了 9151 文章

就在8月19日,阿里发布了Qwen-Image,这是一个图像生成基础模型。这个模型的特点是,通过系统性的数据工程、渐进式的学习策略、改进的多任务训练范式以及可扩展的架构优化,旨在解决复杂文本渲染和精准图像编辑的核心难题。

在AI领域,图像生成技术作为其重要分支,近年来取得了显著进展。无论是从文本直接生成图像(T2I),还是对现有图像进行编辑(TI2I),其核心都在于机器能否精准地理解并以视觉形式再现人类的意图。尽管扩散模型等架构的出现极大地提升了生成图像的分辨率与细节表现力,但该领域仍面临两个长期存在的挑战。

在文本到图像的生成任务中,模型对于复杂、多维度的文本指令的理解与对齐能力尚有不足。尤其是在处理多行文本渲染、非字母文字(如汉字)渲染、特定位置的文字嵌入,以及将文字与视觉元素无缝融合等精细任务时,现有模型往往难以达到理想效果。

而在图像编辑任务中,如何确保编辑后的图像与原始图像在视觉和语义上保持一致性,是一个双重难题。这既要求视觉上的一致性,即只修改目标区域而不影响其他部分的视觉细节;也要求语义上的连贯性,即在进行结构性调整(如改变人物姿态)时,必须保留主体的身份特征与场景的整体逻辑。

01

Qwen团队专门发布了一份技术报告,名为《Qwen-Image Technical Report》,以此详细介绍Qwen-Image的功能。

为实现精准的文本渲染,Qwen-Image构建了一个全面的数据处理体系。该体系始于大规模收集数十亿级别的图文数据,并强调质量优于数量。数据经过一个分为七个阶段的精细化过滤管道,从低分辨率的基础筛选到高分辨率的美学提纯,系统性地提升了数据质量与图文对齐度。

同时,考虑到真实图像中汉字等内容的长尾分布特性,模型还通过“纯粹渲染”、“组合渲染”和“复杂渲染”三种策略大量合成高质量的文本图像数据,弥补了自然数据的不足。在此基础上,模型采用由简到繁的“课程学习”策略进行训练,显著增强了其渲染复杂中英文文本的能力。

为实现精准的图像编辑,Qwen-Image提出了一种增强的多任务学习框架。其核心是将输入图像编码为两种互补的特征:一是通过Qwen2.5-VL模型提取的高层“语义特征”,用于理解图像内容和编辑指令;二是通过变分自编码器(VAE)提取的低层“重建特征”,用于保留图像的视觉细节和纹理。

这两种特征共同作为引导信号,输入到作为模型骨干的多模态扩散Transformer(MMDiT)中。这种“双重编码”设计,使得模型在执行编辑指令时,既能理解“改什么”,又能知道“保留什么”,从而在语义连贯性与视觉保真度之间取得了良好的平衡。

模型架构上,Qwen-Image由Qwen2.5-VL(条件编码器)、VAE(图像压缩与解码)和MMDiT(核心生成网络)三部分组成。其中,VAE采用了独特的“单编码器、双解码器”架构,使其在保证高质量图像重建的同时,也为未来扩展到视频生成任务奠定了基础。MMDiT内部则引入了一种名为MSROPE的新型位置编码方法,通过将文本信息在概念上置于图像网格的对角线,改善了文本与图像特征的对-齐。

训练过程同样是渐进式的,从低分辨率到高分辨率,从无文本图像到有文本图像,并结合了监督微调(SFT)与直接偏好优化(DPO)等强化学习方法,持续优化生成结果的质量与遵循指令的准确性。最终,大量的基准测试和人类评估结果表明,Qwen-Image在通用的图像生成、复杂的文本渲染以及指令式图像编辑任务上,均达到了业界领先水平。

不多说废话,让我们直接看成品。我故意刁难Qwen-Image,既然官方技术团队报告中表示优化了对提示词的理解,那么我就要它生成自然界不存在的东西。从结果上来看,Qwen的冰山渲染效果比GPT-5更好,但是火焰跟冰山较为割裂,而GPT-5则用熔岩填充了火焰和冰山之间的部分,让画面更自然。

提示词:A colossal iceberg that is on fire, with bright orange flames licking its crystalline blue surfaces, emitting thick steam and smoke into a freezing arctic sky. The water around the iceberg is boiling. Photorealistic, dramatic lighting.

Qwen-Image:

GPT-5:

在图片重构方面,GPT-5除了猫整体都发生了改变,包括背景。可能是因为希望要求它漂浮在空中,GPT-5真的把这只猫送上了大气层,但是Qwen-Image则是漂浮在了半空中。

提示词:make the cat floating in the air and holding a sign that reads "this is fun" written with a blue crayon

原图片:

Qwen-Imgae:

GPT-5:

有意思的来了,由于原图片中出现了星条旗,GPT-5和Gemini都不能完成对原图片的修改。但是Qwen-Image完成了这个命令,虽然在生成的图片中,马斯克变得更加苍老了。

提示词:Keep Elon Musk and his hat exactly as they are in terms of pose and size, but place them on the surface of Mars during a massive dust storm. The sky should be a swirling orange and red, with visible streaks of dust. Add a futuristic, slightly damaged SpaceX rover partially buried in the Martian sand in the background.

原图:

Qwen-Image:

02

技术报告展示了Qwen-Image强大的图像生成与编辑能力,这自然引出一个问题:它能成为一个“AI版的Photoshop”吗?或者说,它在多大程度上改变了我们与图像交互的方式?要回答这个问题,我们需要比较它与传统图像编辑软件的核心异同。

从功能上看,Qwen-Image确实展现出了许多与Photoshop相似的核心编辑能力,但实现方式截然不同。Photoshop依赖于工具箱、图层和滤镜,用户通过直接操作(如画笔涂抹、选区拖动)来实现修改。而Qwen-Image则依赖于自然语言指令,用户通过“描述”来完成编辑。

在对象处理方面,Photoshop使用套索、魔棒等工具进行精确选区,然后进行复制、粘贴或内容识别填充。Qwen-Image则通过文本指令实现类似操作,例如“添加一只猫和一只狗”或“移除画面里所有的人”。它不仅能完成增删,还能理解风格要求(如添加卡通风格的动物),这类似于PS中需要手动调整新元素风格以匹配背景的操作,但Qwen-Image将其自动化了。

在材质与风格转换上,Photoshop提供滤镜库、图层样式和纹理叠加等功能。Qwen-Image同样能通过指令完成,例如将一个普通图标变为“珐琅彩玻璃艺术”风格的冰箱贴。这种基于语义的材质渲染,是其强大之处。此外,其精准的文本编辑能力,如修改、增删图像中的文字并保持原有风格,直接对标了Photoshop的核心功能——文字工具。

更进一步,在处理图像结构性变化时,比如人物姿态调整,Qwen-Image展现了超越传统工具的潜力。在Photoshop中,调整姿态可能需要使用液化、操控变形等工具进行细致的手动修改,且很难保证衣物纹理和背景的自然过渡。

而Qwen-Image能够理解“让她站起来,单手叉腰”这样的指令,并在保持人物身份、服装细节(甚至能推断出被遮挡的衣物部分)和背景一致性的前提下,生成一个全新的、符合逻辑的姿态。这种能力更接近于“重新想象”而非“修改”。

然而,尽管功能上有诸多重叠,将Qwen-Image简单地视为Photoshop的替代品并不准确。二者的核心工作范式存在根本差异。

最重要的地方在于控制的粒度。Photoshop提供的是像素级的、确定性的精确控制。用户可以选中任意一个像素点,赋予它一个精确的RGB值。而Qwen-Image的控制是语义级的、概率性的。用户描述的是“什么”,而不是“如何做”。你无法通过指令去精确控制某个特定像素的颜色,编辑结果总是在一定程度上由模型“自由发挥”,带有一定的随机性。

Photoshop的核心是基于图层的非线性、非破坏性工作流。用户可以随时返回修改任意一个图层,而不影响其他部分。Qwen-Image的编辑更像是一个“一次性”的再生成过程。尽管技术报告中展示了“链式编辑”(即在上一次生成结果的基础上继续编辑),但这与PS中灵活调整图层堆栈的逻辑完全不同。

精通Photoshop需要掌握复杂的工具、蒙版和色彩理论。而使用Qwen-Image则需要掌握“提示词工程”——用清晰、准确的语言描述视觉意图的能力。它极大地降低了图像编辑的技术门槛,但同时也引入了一种新的技能壁垒。

Qwen-Image并非Photoshop的直接替代品,而是一种全新的图像内容创作与编辑范式。Photoshop是一个“数字暗房”和“画布”,为专业人士提供了无与伦比的直接操控和精确控制能力。而Qwen-Image则是一个“语义指令引擎”,它将人的意图从繁琐的技术操作中解放出来,更侧重于创意构想的快速实现和语义层面的内容调整。

它们满足了不同场景的需求。一个需要进行精细排版和品牌视觉设计的专业设计师,依然离不开Photoshop的精确控制。但对于一个需要快速产出创意概念图、营销素材,或者不具备专业设计技能的用户来说,Qwen-Image无疑是更高效、更直观的工具。

虽然现在已经出现了一些带有AI功能的修图软件,但是能实现的功能还比较浅,比如消除图片中的人物、调整颜色等。未来,二者很可能会深度融合——在Photoshop这样的专业软件中,嵌入像Qwen-Image一样强大的语义理解和生成引擎,这在PS的“生成式填充”功能中已初见端倪。Qwen-Image的出现,标志着这条融合之路上的“语义引擎”一端,已经达到了一个新的成熟高度。

本文来自微信公众号“直面AI”,作者:苗正,36氪经授权发布。

AI中国

AI中国

9151 文章 1505917 浏览次数 950300 粉丝

评论 (0)

睡觉动画