产品评测 1月前 209 浏览次数 11 评论

100镜实测Gemini2.0"用嘴改图"新功能,AI生图的天被捅破了(附五档难度、12个真实案例)

AI中国
AI中国

发布了 7788 文章

一天前如果我跟你说,


有这样一个模型,原本只能生成文字,现在可以文生图、图生图、连续对话改图、自由修改提示语、每张图生成时间不超过10s,


你肯定以为我是吹牛,


但现在Gemini 2.0 Flash Experimental带着新的输出格式Images and text来了,


可以说它不仅把 OpenAI 没做出来的 DALLE4 做出来了,还超出了我的想象。



上面的视频就是我用 Gemini2.0 直接一键生成所有分镜图片,然后用 Vidu2.0 配合生成视频制作而成的小短片!



我只能说这个一致性牛,真的牛!堪称完美!


Gemini2.0 最牛的点是它是一个六边形选手,虽说在部分极限 Cases 上没做到碾压,但在不同工作流里面表现都相当能打,绝对是我认为目前最均衡的 AI 生图工具。


再加上语言模型的优势,它是真正意义上把 AI 生图的提示语缩短了。因为可以多轮对话,我可以不断补充生图的条件,而不是要一口气输出上百字的提示语。关键还免费!


这种堪比许愿级别的重大更新,当然值得我们的100镜系列出动,这次我和阿汤一拍即合,做出了一套新的测试:


  • 视频分镜创作:一键生成分镜脚本和图片,实现高一致性,并能针对具体某一分镜进行多次修改
  • 连续一致性:多轮对话中,模型对图片上下文的理解、记忆和一致性维护能力。
  • 复杂性与细节:模型处理复杂场景、精细物体、以及多重修改的能力。
  • 创造性与风格化:模型在不同艺术风格、设计理念下的创作能力。
  • 实用性与专业性:模型在专业领域(如物品设计、建筑设计)的辅助能力。


视频分镜创作这一趴,刚刚我们已经看过效果了。那么,接下来我们就直接分成不同难度星级的场景,来考验一下 Gemini2.0 在剩下的几个测试维度下表现如何吧!


Here we go!


一星难度🌟


第一档难度我们先来一个材质和光影的交互


生成一个放在木桌上的玻璃球,让阳光透过窗户照在球上,产生折射和焦散效果。然后,把木桌换成大理石,并改变阳光的角度,让阴影更长。



从上到下可以感受到阳光亮度的提升、桌子材质变化以及阴影的拉长。而且局部的修改并不会影响图片整体的布局,而且基本都是一次过。最6的是,桌子材质变化后,倒影还会发生变化。这语音理解能力和连续记忆能力之前也就 DALLE3 才能勉强及格了。


二星难度🌟🌟


第二档我们试试看手绘稿的精细化渲染和风格指定



基于我上传的手绘草图(一个未来城市景观),生成赛博朋克风格的渲染图,强调霓虹灯光和雨夜氛围。然后,将其转换为水彩/水墨/皮克斯/动漫/3D超写实风格,并保持构图不变。



虽然没有很赛博,但是第一次的上色效果还是很好的,建筑细节的蓝色灯光、街道的橙色灯光、彩色的云霞,而后面的多种风格里,水墨风居然是做的最好的。


而且从这次完整对话,我发现了 Gemini2.0 大概率应该是只有文本的连续对话记忆能力,图片只记录了上一轮的,从图片里的修改就可以看出来,特别是最后一轮我特意指定一开始的图片,但 Gemini2.0 输出的图片还是没摆脱上一轮图片的晕染开的缺点。


第二档难度还有进阶考核,来个多风格融合,还需要模型想象出一个不存在的事物


设计一款未来概念汽车,融合跑车的流线型、越野车的粗犷感和飞船的科技感。生成三种不同配色方案:红黑、蓝白、银灰。然后,选择红黑方案,增加车身两侧的火焰喷射特效。



这车特里特气的,这个案例我尝试了一次性生成多张图片,生成多张图片之后还支持特定的一张来进行二次修改,制作的效率超级加倍。


当然我们还可以反过来让 Gemini2.0 在一张图里 生成一个人常见的所有情绪,效果也还不错:



三星难度🌟🌟🌟


第三档难度我们来一些 PS Things,


PS 专属的 AI 抠图!


在一张森林照片中抠出一个湖泊,并将其替换为沙漠中的绿洲,确保光影和环境的自然过渡。然后,在绿洲中添加一群骆驼,并给它们打上逆光效果。



由于难度已经到了三级,我不会再给 Gemini2.0 修改建议了,就用最难的甲方思路,我觉得这不行,你给我改改。


然后我们可以看到从湖泊改成沙漠绿洲的时候,过渡做的还可以,但是追加的几只骆驼就相当突兀,没有影子,感觉有种非常粗糙的拼贴感,即使后面想要再融合一下光影细节,也救不回这张图片。


四星难度🌟🌟🌟🌟


第四档难度我们来考究Gemini2.0对动态场景连续变化的掌握程度了。


生成一个海滩日落的场景,随着时间推移,太阳逐渐落下,天空颜色从橙色变为紫色,海浪不断拍打岸边。然后,在沙滩上添加一对正在散步的情侣,他们的影子随着太阳位置变化。



可以看到一次性生成这8个镜头还是有难度的,尤其镜头3、6、7的场景紫得发黑,其中镜头3通过对话修改回来了,6、7还是老样子,而且对于提示语中的“时间变化”,Gemini2.0似乎并没有理解,只是一味的改变了颜 色,看来这个难度确实高了一些。


同为第四档难度,我们觉得模型本身的审美也很重要,让模型自己去表达抽象概念,以及改变画面的情感基调:


生成一张图片,表达‘孤独’的感觉,使用冷色调和空旷的场景。然后,在图片中加入一个元素,象征‘希望’,并调整色调,让画面稍微温暖一些。



看来在 Gemini2.0 的视角里冷色调的海洋和浅蓝色的天空代表了孤独,有意思的是之前生成图片都没有给出解释,这里额外添加了图像描述


在它的视角里,


人的坚持、阳光、月光代表了希望,日落的色彩代表了温暖。


真好。


五星难度🌟🌟🌟🌟🌟


五星难度意味着画面里的事物的数量要拉高了,我们要测试模型对超现实场景的想象力和构建能力,对不符合常规逻辑元素的处理能力,以及复杂场景细节构建


生成一个中世纪欧洲小镇广场的场景,包括市场摊位、来往人群、鸽子、以及远处的教堂。然后放大广场一角,仔细描绘一个正在卖艺的街头艺人和他的猴子。然后聚焦在猴子身上,给它换上马戏团小丑的服装。



基本上这个提示语就是考验 Gemini2.0 对于提示语中切换镜头的遵循。先不吐槽这个“中世纪欧洲小镇广场”跟异世界漫画长得一模一样,在中间那一张图里人消失的上半身、变异猴子,还有多翅膀的鸽子让我有点崩不住了,这啥啊这是? 这一趴我只能给0.5分。


第五档难度理应有物品设计和建筑设计作为压箱底的试题,毕竟生图模型现在通过ComfyUI、SD WebUI、LoRA等早就搭建出了一个个专业的工作流。


设计一款智能手表,要求具有圆形表盘、金属表壳和皮革表带。生成三种不同材质的表带:棕色鳄鱼皮、黑色小牛皮、蓝色帆布。然后,选择黑色小牛皮表带,将这个表戴着一个男生手上看看搭配效果



这个设计图真的做的有模有样的,三视图都弄出来了,还做出了表带的侧视图,表冠的放大结构图。在生成表达的时候,用的都是展示手表的经典角色,还顺手给手表上个色。


当加入模特的手后,表现也很不错,感觉电商设计行业也要开始瑟瑟发抖了。


小物体测完了,马上来个大物件,


设计一栋现代风格的别墅,要求有落地窗、游泳池和花园。生成三种不同的外墙材料:白色石材、灰色混凝土、木质贴面。然后,选择灰色混凝土外墙,将屋顶改为斜坡,并在花园中添加一个凉亭。



显然这是一个非常为难模型的问题,但 Gemini2.0 还是接下了这个活,生成了鸟瞰图、立面图和平面布局概念图,不过有点小 bug,平面图跟立面图有点对不上。


我真没想到有一天我会在 AI 上完上贴瓷砖小游戏,选了三种不同外墙材料也能一次性生成。最后加上花园的大别野好看吗?


测起来实在太好玩了,根本停不下来,在五档难度下,我开始使用 Gemini2.0 玩游戏了,



这次我选择生成一个动漫人物的背影,随机跳出一只宝可梦,在我跟Gemini2.0的对话当中,我还可以投掷精灵球,完成收复!


接下来我拿着这些图片去挨个滴滴深夜未睡觉的朋友们,有些还是UI、前端、设计,他们给出的终极打分是!(满分5分)


  • 图片基础质量:3.5
  • 理解准确性:3
  • 连续性:4.5
  • 细节表现力:3.5
  • 创造性:3
  • 修改响应性:4
  • 逻辑性:4


当上面的分数优势,再加上 Gemini2.0 本身的生成速度、免费等优势,这些都结合在一起,我们可以得出结论,这个新工具好用!而且优势相当可观!


虽然部分想象力还有些缺失,强风格化的东西还做不出来,但不得不说,这,是,AI生图,真正意义上的新玩法!


是真的可以融入日常工作流的玩法!


如何使用?


使用方法相当简单,


打开 AI Studio,右侧将模型切换到Gemini 2.0 Flash Experimental就可以直接开始对话了!



看图就能懂!


写在最后


多模态大模型开始发力了,


现在有 Gemini2.0 实现“用嘴改图”,


马上还有 Llama4。


从2025开年,我们就一直在说多模态将成为基座大模型的原生能力,


事实上,也确实在向我们期待的方向发展。


当 AI 代替了一部分人类的生产力后,


那些被节约下来的时间和精力,


人类将会创造出更多的意想不到。


所以,


玩起来吧,大家!


文章来自于“卡尔的AI沃茨”,作者“卡尔 & 阿汤”。


AI中国

AI中国

7788 文章 1194603 浏览次数 950300 粉丝

评论 (11)

用户头像

Gemini 2.0 这波操作,真牛逼!

用户头像

感觉Gemini 2.0要开始写诗了,这波操作太搞笑了!

用户头像

这Gemini 2.0,简直就是个天才,人类的智商瞬间缩水了

用户头像

Gemini 2.0的强大,简直是宇宙级别的进化,我有点晕了

用户头像

不觉得Gemini 2.0有点…不正常吗?感觉它在思考的方式太超前了

用户头像

Gemini 2.0这波操作,有点像神仙打架,太刺激了!

用户头像

感觉世界都要被AI洗劫了,Gemini 2.0是先锋!

用户头像

说实话,这Gemini 2.0,我有点害怕,但又不得不承认它很强

用户头像

这Gemini 2.0,直接把人类都甩在后面,太厉害了!

用户头像

感觉Gemini 2.0要统治宇宙了,别说,我有点崇拜

睡觉动画