100镜实测Gemini2.0"用嘴改图"新功能，AI生图的天被捅破了（附五档难度、12个真实案例）

一天前如果我跟你说，

有这样一个模型，原本只能生成文字，现在可以文生图、图生图、连续对话改图、自由修改提示语、每张图生成时间不超过10s，

你肯定以为我是吹牛，

但现在Gemini 2.0 Flash Experimental带着新的输出格式Images and text来了，

可以说它不仅把 OpenAI 没做出来的 DALLE4 做出来了，还超出了我的想象。

上面的视频就是我用 Gemini2.0 直接一键生成所有分镜图片，然后用 Vidu2.0 配合生成视频制作而成的小短片！

我只能说这个一致性牛，真的牛！堪称完美！

Gemini2.0 最牛的点是它是一个六边形选手，虽说在部分极限 Cases 上没做到碾压，但在不同工作流里面表现都相当能打，绝对是我认为目前最均衡的 AI 生图工具。

再加上语言模型的优势，它是真正意义上把 AI 生图的提示语缩短了。因为可以多轮对话，我可以不断补充生图的条件，而不是要一口气输出上百字的提示语。关键还免费！

这种堪比许愿级别的重大更新，当然值得我们的100镜系列出动，这次我和阿汤一拍即合，做出了一套新的测试：

视频分镜创作：一键生成分镜脚本和图片，实现高一致性，并能针对具体某一分镜进行多次修改
连续一致性：多轮对话中，模型对图片上下文的理解、记忆和一致性维护能力。
复杂性与细节：模型处理复杂场景、精细物体、以及多重修改的能力。
创造性与风格化：模型在不同艺术风格、设计理念下的创作能力。
实用性与专业性：模型在专业领域（如物品设计、建筑设计）的辅助能力。

视频分镜创作这一趴，刚刚我们已经看过效果了。那么，接下来我们就直接分成不同难度星级的场景，来考验一下 Gemini2.0 在剩下的几个测试维度下表现如何吧！

Here we go!

一星难度🌟

第一档难度我们先来一个材质和光影的交互：

生成一个放在木桌上的玻璃球，让阳光透过窗户照在球上，产生折射和焦散效果。然后，把木桌换成大理石，并改变阳光的角度，让阴影更长。

从上到下可以感受到阳光亮度的提升、桌子材质变化以及阴影的拉长。而且局部的修改并不会影响图片整体的布局，而且基本都是一次过。最6的是，桌子材质变化后，倒影还会发生变化。这语音理解能力和连续记忆能力之前也就 DALLE3 才能勉强及格了。

二星难度🌟🌟

第二档我们试试看手绘稿的精细化渲染和风格指定：

基于我上传的手绘草图（一个未来城市景观），生成赛博朋克风格的渲染图，强调霓虹灯光和雨夜氛围。然后，将其转换为水彩/水墨/皮克斯/动漫/3D超写实风格，并保持构图不变。

虽然没有很赛博，但是第一次的上色效果还是很好的，建筑细节的蓝色灯光、街道的橙色灯光、彩色的云霞，而后面的多种风格里，水墨风居然是做的最好的。

而且从这次完整对话，我发现了 Gemini2.0 大概率应该是只有文本的连续对话记忆能力，图片只记录了上一轮的，从图片里的修改就可以看出来，特别是最后一轮我特意指定一开始的图片，但 Gemini2.0 输出的图片还是没摆脱上一轮图片的晕染开的缺点。

第二档难度还有进阶考核，来个多风格融合，还需要模型想象出一个不存在的事物。

设计一款未来概念汽车，融合跑车的流线型、越野车的粗犷感和飞船的科技感。生成三种不同配色方案：红黑、蓝白、银灰。然后，选择红黑方案，增加车身两侧的火焰喷射特效。

这车特里特气的，这个案例我尝试了一次性生成多张图片，生成多张图片之后还支持特定的一张来进行二次修改，制作的效率超级加倍。

当然我们还可以反过来让 Gemini2.0 在一张图里生成一个人常见的所有情绪，效果也还不错：

三星难度🌟🌟🌟

第三档难度我们来一些 PS Things，

PS 专属的 AI 抠图！

在一张森林照片中抠出一个湖泊，并将其替换为沙漠中的绿洲，确保光影和环境的自然过渡。然后，在绿洲中添加一群骆驼，并给它们打上逆光效果。

由于难度已经到了三级，我不会再给 Gemini2.0 修改建议了，就用最难的甲方思路，我觉得这不行，你给我改改。

然后我们可以看到从湖泊改成沙漠绿洲的时候，过渡做的还可以，但是追加的几只骆驼就相当突兀，没有影子，感觉有种非常粗糙的拼贴感，即使后面想要再融合一下光影细节，也救不回这张图片。

四星难度🌟🌟🌟🌟

第四档难度我们来考究Gemini2.0对动态场景连续变化的掌握程度了。

生成一个海滩日落的场景，随着时间推移，太阳逐渐落下，天空颜色从橙色变为紫色，海浪不断拍打岸边。然后，在沙滩上添加一对正在散步的情侣，他们的影子随着太阳位置变化。

可以看到一次性生成这8个镜头还是有难度的，尤其镜头3、6、7的场景紫得发黑，其中镜头3通过对话修改回来了，6、7还是老样子，而且对于提示语中的“时间变化”，Gemini2.0似乎并没有理解，只是一味的改变了颜色，看来这个难度确实高了一些。

同为第四档难度，我们觉得模型本身的审美也很重要，让模型自己去表达抽象概念，以及改变画面的情感基调:

生成一张图片，表达‘孤独’的感觉，使用冷色调和空旷的场景。然后，在图片中加入一个元素，象征‘希望’，并调整色调，让画面稍微温暖一些。

看来在 Gemini2.0 的视角里冷色调的海洋和浅蓝色的天空代表了孤独，有意思的是之前生成图片都没有给出解释，这里额外添加了图像描述。

在它的视角里，

人的坚持、阳光、月光代表了希望，日落的色彩代表了温暖。

真好。

五星难度🌟🌟🌟🌟🌟

五星难度意味着画面里的事物的数量要拉高了，我们要测试模型对超现实场景的想象力和构建能力，对不符合常规逻辑元素的处理能力，以及复杂场景细节构建

生成一个中世纪欧洲小镇广场的场景，包括市场摊位、来往人群、鸽子、以及远处的教堂。然后放大广场一角，仔细描绘一个正在卖艺的街头艺人和他的猴子。然后聚焦在猴子身上，给它换上马戏团小丑的服装。

基本上这个提示语就是考验 Gemini2.0 对于提示语中切换镜头的遵循。先不吐槽这个“中世纪欧洲小镇广场”跟异世界漫画长得一模一样，在中间那一张图里人消失的上半身、变异猴子，还有多翅膀的鸽子让我有点崩不住了，这啥啊这是？这一趴我只能给0.5分。

第五档难度理应有物品设计和建筑设计作为压箱底的试题，毕竟生图模型现在通过ComfyUI、SD WebUI、LoRA等早就搭建出了一个个专业的工作流。

设计一款智能手表，要求具有圆形表盘、金属表壳和皮革表带。生成三种不同材质的表带：棕色鳄鱼皮、黑色小牛皮、蓝色帆布。然后，选择黑色小牛皮表带，将这个表戴着一个男生手上看看搭配效果

这个设计图真的做的有模有样的，三视图都弄出来了，还做出了表带的侧视图，表冠的放大结构图。在生成表达的时候，用的都是展示手表的经典角色，还顺手给手表上个色。

当加入模特的手后，表现也很不错，感觉电商设计行业也要开始瑟瑟发抖了。

小物体测完了，马上来个大物件，

设计一栋现代风格的别墅，要求有落地窗、游泳池和花园。生成三种不同的外墙材料：白色石材、灰色混凝土、木质贴面。然后，选择灰色混凝土外墙，将屋顶改为斜坡，并在花园中添加一个凉亭。

显然这是一个非常为难模型的问题，但 Gemini2.0 还是接下了这个活，生成了鸟瞰图、立面图和平面布局概念图，不过有点小 bug，平面图跟立面图有点对不上。

我真没想到有一天我会在 AI 上完上贴瓷砖小游戏，选了三种不同外墙材料也能一次性生成。最后加上花园的大别野好看吗？

测起来实在太好玩了，根本停不下来，在五档难度下，我开始使用 Gemini2.0 玩游戏了，

这次我选择生成一个动漫人物的背影，随机跳出一只宝可梦，在我跟Gemini2.0的对话当中，我还可以投掷精灵球，完成收复！

接下来我拿着这些图片去挨个滴滴深夜未睡觉的朋友们，有些还是UI、前端、设计，他们给出的终极打分是！（满分5分）

图片基础质量：3.5
理解准确性：3
连续性：4.5
细节表现力：3.5
创造性：3
修改响应性：4
逻辑性：4

当上面的分数优势，再加上 Gemini2.0 本身的生成速度、免费等优势，这些都结合在一起，我们可以得出结论，这个新工具好用！而且优势相当可观！

虽然部分想象力还有些缺失，强风格化的东西还做不出来，但不得不说，这，是，AI生图，真正意义上的新玩法！

是真的可以融入日常工作流的玩法！

如何使用？

使用方法相当简单，

打开 AI Studio，右侧将模型切换到Gemini 2.0 Flash Experimental就可以直接开始对话了！

看图就能懂！

写在最后

多模态大模型开始发力了，

现在有 Gemini2.0 实现“用嘴改图”，

马上还有 Llama4。

从2025开年，我们就一直在说多模态将成为基座大模型的原生能力，

事实上，也确实在向我们期待的方向发展。

当 AI 代替了一部分人类的生产力后，

那些被节约下来的时间和精力，

人类将会创造出更多的意想不到。

所以，

玩起来吧，大家！

文章来自于“卡尔的AI沃茨”，作者“卡尔 & 阿汤”。

Gemini 2.0这波操作，有点像神仙打架，太刺激了！

EchoBloom_Z

感觉世界都要被AI洗劫了，Gemini 2.0是先锋！

说实话，这Gemini 2.0，我有点害怕，但又不得不承认它很强

这Gemini 2.0，直接把人类都甩在后面，太厉害了！

neon_drift

感觉Gemini 2.0要统治宇宙了，别说，我有点崇拜

登录账号