机器之心发布
机器之心编辑部
当 AI 视频不再只像过去那样比拼高清像素,而是开始进入 “飙演技” 阶段,AI 视频才算正式迈入内容生产的最高级形式 —— 影视级叙事新阶段。
9 月 25 日,生数科技新一代图生视频大模型 Vidu Q2 正式全球上线,打破了原有 AI 生成的表情太假,动作飘忽不定,运动幅度不够大,无法指哪打哪的行业问题,实现从 “视频生成” 到 “演技生成”,从 “动态流畅” 到 “情感表达” 的革命性跨越,标志着 AI 视频生成技术正式从追求 “形似” 进入追求 “神似” 的新纪元,将为内容创作、影视产业、广告营销等领域带来全新升级。Vidu Q2 图生视频功能不仅能胜任复杂表情变化的文戏,常见的多人打斗场景的武戏,而且还能完美呈现大片中的炫酷特效。
据了解,相比于今年上半年发布的 Vidu Q1 模型,此次发布的 Vidu Q2 图生视频功能在极致细微表情生成、推拉运镜、语义理解、生成速度与时长选择方面都有了大幅提升,主要有 4 大亮点:
1、AI 演技更生动——不仅能生成视频,更有生动演技;
2、镜头语言更丰富——运镜自然流畅,创作更显张力;
3、语义理解更准确——创意直达画面,想象即刻成真;
4、时长选择更自由——时长选择灵活,满足更多场景。

此外,为了满足用户对于生成速度和生成质量的不同需求,Vidu Q2 图生视频分为闪电模式和电影大片模式。闪电模型下 20 秒就能生成 5 秒 1080P 视频片段,满足极速出片的需求;电影大片模式则主要满足对于复杂表演、运镜等有更高要求的用户。
目前,Vidu Q2 图生视频功能已同步在其 Web 端、APP 端以及 API 上线。
AI 演技更生动
前不久的威尼斯电影节,辛芷蕾以极其精湛的演技获得了威尼斯国际电影节最佳女主角奖。对于演技派来说,最高的褒奖是演什么像什么,看了让人产生共鸣和代入感。而这种代入感往往是通过演员的细微情绪变化实现的,在短短几秒中突显人物情绪张力,表达人物性格,推动故事发展。
此前 AI 生成的短剧、长片或多或少都存在人物表情僵硬、不自然,演技浮夸的情形,很难表现角色复杂细腻的情绪。而此次发布的 Vidu Q2 图生视频则突破 “最后一道壁垒”,在细微表情生成中的技术被成功攻克,使数字角色能够展现出生动且充满感染力的演技,赋予了 AI 角色以生命力。
我们可以让 AI 演员和电影演员同台 PK 演技,复刻《甜蜜蜜》张曼玉经典片段,短短 5 秒时间呈现从微笑 —— 委屈 —— 难过三种复杂情绪。上边是电影原片段,下边是 Vidu Q2 图生视频生成的,人物演技非常自然,三种情绪之间的转换很有呼吸感,即使努力压抑,但是仍然流露出委屈和难过,对比来看 AI 生成的视频与原视频并无显著差别。

原视频

Vidu Q2
真正的老戏骨每一个细胞都在演戏。这次 Vidu Q2 图生视频相比于 Q1,在细腻的情绪表达上有了明显提升,即使一个眼神也能述说故事。

输入图片


Vidu Q2 图生视频
上述例子中,特写聚焦于一个金发碧眼老人的半边脸,周围的火焰将老人的脸照得通红,他轻轻地眨了眨眼,眼泪中饱含泪水,一滴眼泪从右眼中缓缓流下。即使没有任何言语和环境渲染,也让人对战争的残酷感同身受,AI 人的演技足可以媲美真人。
在动漫场景中,Vidu Q2 的表现也相当惊艳,表情惟妙惟肖更有代入感。在小狐狸的案例中,从瞪大眼睛的惊喜,到躲在石头后面的惊讶和害怕,耳朵竖了起来,再到稍微放松警惕后的无奈,表情的变化似乎在告诉观众好像有什么突如其来的大事发生。小狐狸灵动的演技有迪士尼动画那味了。

在多个角色互动场景中,Vidu Q2 的表现也可圈可点。下面案例中,一男一女笑得合不拢嘴,之后女生捂着嘴笑,男生低头笑着擦了擦眼睛,两人再互相对视,真实得仿佛进入了某个播客的录制现场。

再拿 Vidu Q2 图生视频和其他 AI 视频产品作对比。下面案例中,Vidu Q2 生成的视频每个表情都表现非常精准,从淡淡地微笑到嘴唇微张,眼神从微微向下看到望向远方。其他 AI 视频则完全没有表现出细微表情的变化,视线仅表现了看向远方。
提示词:视线微偏镜头下方,嘴角轻上扬但不露齿,下巴略收。随后瞳孔微放大,眼神越过镜头远点,嘴唇湿润轻启。

Vidu Q2

其他
下面古装戏场景中,其他家虽然也表现了表情凝重,但是演技比较单一,仅是完成了提示词要求,最后抬手也没有碰到额头,给人不真实的感觉。对比来看,Vidu Q2 的表情层次更加丰富,不仅严格遵循了提示词,而且 AI 自动设计了眼神和动作的变化,表演上 “更为走心”,首先男人边喘着粗气边表情凝重地看向远方,紧接着视线收回,嘴巴微闭,抬起手擦了擦额头,把凝重又疲惫的感觉演绎得非常到位。
提示词:这是一个美丽的夕阳场景,阳光照着古战场,空气中有着漂浮的灰尘,男人喘着粗气进行简单的休息,表情凝重,最后用手擦了一下额头

Vidu Q2

其他
从 “AI 木头” 到 “AI 演技派”,从浮夸演技到内心戏,Vidu Q2 新一代 AI 演技的诞生,预测未来将在影视短剧、数字人、广告营销等多个领域有广泛应用。
不仅如此,Vidu Q2 还是个能文能武的全能型演技派,在武打戏上也是个 “老戏骨”。
此前 AI 视频普遍存在的问题是,运动飘忽不定,就连现实生活中常见的跑步和打篮球场景都很难实现,多人打戏更是需要依靠超高的提示词技巧和多次生成,即使这样打戏也是软弱无力,像是自动放了 2 倍慢速,毫无看点。
Vidu Q2 图生视频在运动幅度上有明显提升,即使是比较有挑战的连续运动(比如打架、打拳等)场面也能精准还原,实现真正的 “拳拳到肉”。
下面双人拳击场景中,红方迅速出拳,蓝方快速躲避并迅速来了个左勾拳,红方连续出拳后,红蓝方稍作停顿,双方都发起反攻,蓝方用双手防备后开启猛攻,连续三次攻打红方腹部后退回原地,瞬间带入拳击比赛现场,紧张气氛拉满。

如果把真实场景中的人物换成动画中的小林和悟空,效果也同样惊人。悟空跳跃后放出大招冲击波,之后与小林连续多次出拳过招,双方打斗的同时也伴随着炫酷的动画特效,生成的视频兼具速度和力量感,让人看得十分过瘾。

Vidu Q2 甚至不需要复杂的提示词也能呈现非常精彩的打戏。
如下面案例中,长发女生手持光剑与周围的多个小型机器人进行激烈对战,女生奔跑,蹲下,站起来用光剑与迎面而来的小型机器人对抗,一跃而起后转而被其他机器人打击退回原地。如此复杂的打戏,提示词却相当简单,“流畅的奔跑,爽快的打斗,合理安排不同镜头,自由运镜”,这也意味着 Vidu Q2 对于动作的理解和生成能力已经进化到 Next level 了。

更为值得一提的是,Vidu Q2 图生视频即使在如此大幅度的运动下,仍然能保持角色较高的一致性,不会出现人物模糊或者变脸的情况。这对于影视、动漫制作来说至关重要,背后得益于 Vidu 在一致性上的投入。去年 Vidu 在全球首个推出了参考生视频功能,将 AI 视频的可控一致性拉到了新的高度,而此次推出的 Vidu Q2 则延续了其作为一致性开创者的优势。
镜头语言更丰富
当其他家都在鼓吹好莱坞级别运镜时,一向低调务实的 Vidu 已经直接让新手小白做影视大片了。据了解,Vidu Q2 可轻松实现从宏观全景到微观特写的快速切换,以营造更具冲击力的视觉效果。
为了让 AI 视频更能满足广告电商、影视动漫等较为复杂的运镜需求,Vidu Q2 图生视频在复杂运镜上做到了秒级精准可控。
如下面的动画案例中,侠客挥舞着剑到变身闪电狼,中间有 6 个镜头切换,包括从特写直接切到大全景,同时还需要配合侠客转身同时腾空而起等动作,即使在现实拍摄场景中挑战也很大,但从实际生成效果来看, Q2 生成的画面镜头和 AI 人物配合默契,整个动作一气呵成,非常丝滑。

在极速运动场景下的大幅度镜头切换非常考验空间理解能力和主体稳定性,对于 AI 视频来说极具挑战,但是 Vidu Q2 的表现却非常完美。从全景到赛车手眼神特写再到冲线后的观众席特写,Vidu Q2 在整个过程中对于推拉摇移镜头的调度极为流畅,跟随镜头下突显了赛车手全力冲刺的紧张感和速度感,同时也反映了赛场周围的热闹气氛。
提示词:颠簸镜头跟随
镜头一:全景推进跟随 FI 赛车前景
镜头二:切换戴 F1 赛车头盔的驾驶员紧张驾驶 F1 赛车眼神
镜头三:特写 F1 赛车加速仪表
镜头四:F1 赛车驾驶员第一人称视角,赛车加速前进
镜头五:F1 赛车快速行驶全景视角,冲向终点
镜头六,F1 赛车冲线后,看台上欢呼庆祝的观众特写视角

语义理解更准确
无论是 AI 演技的提升还是运镜的精准拿捏,其实质上是 Vidu Q2 在动作理解、表情理解和镜头语言理解上的飞升。据了解,由于 Vidu Q2 在上下文推理、图像及语义理解和物理仿真能力上的提升,使其在提示词遵从上有了质的飞跃,有创作者评价为言出法随,指哪打哪。内容创作者不再需要像过去一样反复抽卡、反复调整提示词和输入画面,大幅减少了视频生成次数,可直接将创意转化为想要的视频画面。
在实际测试中发现,Vidu Q2 像是一位严格听话同时又具备合理想象力的 “AI 导演”。
下面的案例中,提示词要求在 8 秒中精确切换 4 个不同的镜头,完成从猫猫在街头弹古筝,到从古筝中飞出邪恶的骷髅战士的复杂叙事,可以看到生成的视频中不仅严格遵循了复杂的提示词的所有要求,而且骷髅战士从一团白气中突然出现的画面非常惊艳,镜头切换也很流畅。
提示词:第 1-2s:坐着的猫轻轻抚动古琴琴弦,镜头快速推近;3-4s:近距离大特写猫邪恶诡异的一笑,然后突然变得凶狠,镜头先推近拍摄同时向右环绕运镜拉远到侧面;5s:猫用力拨动琴弦;6-8s:琴弦释放出白色亮光魔法灵气,灵气向左冲刺,然后灵气幻化形成一个拿着刀的气态邪恶骷髅战士向左高速飞行,镜头高速跟踪拍摄同时推近运镜

Vidu Q2 在语义理解上质的突破,将过去因反复生成带来的时间、人力、成本以及效果的不确定性,变为高质量稳定输出的确定性,预计影视短剧、广告行业即将迎来 AI 视频大规模商业化拐点。
时长选择更自由
除了性能提升之外,一向对市场需求敏感的 Vidu 也推出了新功能,赋予创作者更多自由发挥的空间。
此前业内 AI 视频产品更多以 5 秒时长偏多,无法让内容创作者自由选择,具有一定的局限性。Vidu Q2 图生视频此次推出的 2-8 秒时长随心选,无论是 1 秒的特写镜头,还是 8 秒的连续长镜头或多个切换镜头,都可以任意选择,满足创作者不同场景的叙事需求。

此外,作为内容生产力工具,这次 Vidu Q2 的发布仍然继承了 Vidu 的优良传统,做到了极高性价比、极致画面质量、极快生成速度的平衡。
在同等画质和时长上,Vidu Q2 在生成速度上做到了行业领先。Vidu Q2 图生视频闪电模式下 1080P 5 秒视频仅为 20 秒,实现了高质量画面的极速生成。
当以 Vidu Q2 为代表的产品开始谈论 AI 演技时,我们知道下一个 AI 时代的内容新世界即将到来。
文中视频链接:
https://mp.weixin.qq.com/s/jZLoHyclAGpgFDTecEHOUQ