谷歌发布Veo 3.1视频生成模型：新增音频功能和精细化编辑能力

AIbase基地

发布了 1093 文章

谷歌近日推出了视频生成模型Veo3.1，这是对今年5月发布的Veo3的升级版本。新版本在音频输出、编辑控制粒度和图像转视频质量等方面实现了改进，能够生成更真实的视频片段并更准确地遵循用户提示指令。

在功能层面，Veo3.1允许用户向视频中添加新对象，系统会自动将其融入原有画面风格。谷歌还透露，即将在其视频编辑工具Flow中支持从视频中移除现有对象的功能，进一步增强编辑灵活性。

Veo3此前已经提供了多项编辑特性，包括通过参考图像驱动角色生成、提供首尾帧由AI生成中间内容，以及基于末尾帧扩展现有视频等功能。Veo3.1的核心升级在于为所有这些编辑功能增加了音频生成能力，使输出的视频片段具备声音元素，提升了内容的完整性和沉浸感。

从部署渠道来看，Veo3.1将通过多个平台向用户开放。谷歌正在将该模型集成到视频编辑器Flow、Gemini应用程序，以及面向开发者的Vertex AI和Gemini API接口中。据谷歌披露的数据，自Flow在5月上线以来，用户已在该平台上创作了超过2.75亿个视频。

这次更新体现了AI视频生成技术在两个方向上的演进。一方面是生成质量的持续提升——更真实的画面、更准确的提示词理解;另一方面是编辑能力的细化——从整体生成到局部修改、对象增删等精细操作。音频生成的加入则填补了此前AI视频工具普遍缺乏声音元素的短板。

不过从技术成熟度来看，AI视频生成仍处于快速迭代阶段。视频的连贯性、物理规律的准确性、复杂场景的处理能力等方面，各家模型都在持续改进中。Veo3.1的实际表现，包括音频与画面的同步质量、对象融合的自然度等细节，还需要通过用户实际使用来验证。

登录账号

谷歌发布Veo 3.1视频生成模型：新增音频功能和精细化编辑能力

AIbase基地

评论 (0)

文章章节

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

用户破8亿！GPT-5.1来了，表情包含量可自定义

发布即开放：百度猎户座葫芦里卖的什么药？

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

速抢（2核2G）77元/年香港免备案服务器

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

登录账号

谷歌发布Veo 3.1视频生成模型：新增音频功能和精细化编辑能力

AIbase基地

评论 (0)

文章章节

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

用户破8亿！GPT-5.1来了，表情包含量可自定义

发布即开放：百度猎户座葫芦里卖的什么药？

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

速抢（2核2G）77元/年香港免备案服务器

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

为您推荐