复旦开源StableAvatar：上传照片和音频即可生成唱歌或说话的视频

复旦大学、微软亚洲研究院和西安交通大学等机构的联合开源了一个能通过音频直接生成唱歌或说话视频的AI项目：StableAvatar ！

该项目视频时长不受限制，画面质量也很高。

功能亮点

能生成超长视频：以前的工具大多只能生成不到 15 秒的短视频，而 StableAvatar 可以生成任意时长的视频，而且画面质量依然很高（高保真）。

人物形象不走样：即使生成很长的视频，视频里人物的脸和身体动作也能保持一致，不会出现脸变形、身体比例奇怪或者前后外观不搭的问题。

不用额外处理：生成的视频直接就能用，不需要再用其他工具去修脸（比如常见的面部置换工具 FaceFusion 或者修复模型 GFP-GAN、CodeFormer 等），省了好多麻烦。

工作原理

处理音频：先把输入的音频通过 Wav2Vec 模型提取出音频特征（也就是 audio embeddings），然后用前面提到的“音频适配器”对这些特征做优化，让音频信息更准确。

处理参考图像（比如人物的初始照片）：参考图像会通过两条路径输入到生成视频的模型里：

生成视频：推理阶段，原本应该输入的真实视频帧会被替换成随机噪声（这是这类模型的常规操作），其他输入（比如优化后的音频、处理好的参考图像信息）保持不变，最终通过模型计算生成连续的视频帧，形成完整视频。

应用场景

电影和视频制作：高难度动作场景：不用演员亲自冒险拍危险动作（比如跳楼、爆炸），用它生成视频能降低成本和风险。

游戏开发：可生成角色动画，使游戏里的角色动作和表情更真实，玩家玩起来更有代入感。

创建虚拟角色：在 VR/AR 应用里生成逼真的人物，让用户感觉像和真人互动。

社交媒体和直播：生成的虚拟主播形象始终一致，直播时动画效果更真实。短视频创作者和数字艺术家可以用它设计各种有趣的动态形象，做出更有创意的内容。

GitHub：https://github.com/Francis-Rings/StableAvatar

#AI开源项目推荐##github###AI技术##ai视频生成#

登录账号

复旦开源StableAvatar：上传照片和音频即可生成唱歌或说话的视频

AI-GitHub

评论 (0)

文章章节

推荐文章

北京人形开源最新VLM模型，推动具身智能再迈关键一步 !

超大参数量具身VLM开源：首创DPPO训练范式，模型性价比天花板

用了Rust，谷歌实测：Android上内存漏洞率比C/C++低1000倍！

全球最大开源具身大模型！中国机器人跑完马拉松后开始学思考

刚刚，华为AI推理大招开源，时延降90%，吞吐提22倍，上下文10倍级扩展

速抢（2核2G）77元/年香港免备案服务器

开源即爆火！英伟达重磅推出OmniVinci全模态大模型

国际刑事法院也“踢掉”了微软Office！因邮箱一度“被封”，决定改为开源替代品openDesk

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

登录账号

复旦开源StableAvatar：上传照片和音频即可生成唱歌或说话的视频

AI-GitHub

评论 (0)

文章章节

推荐文章

北京人形开源最新VLM模型，推动具身智能再迈关键一步 !

超大参数量具身VLM开源：首创DPPO训练范式，模型性价比天花板

用了Rust，谷歌实测：Android上内存漏洞率比C/C++低1000倍！

全球最大开源具身大模型！中国机器人跑完马拉松后开始学思考

刚刚，华为AI推理大招开源，时延降90%，吞吐提22倍，上下文10倍级扩展

速抢（2核2G）77元/年香港免备案服务器

开源即爆火！英伟达重磅推出OmniVinci全模态大模型

国际刑事法院也“踢掉”了微软Office！因邮箱一度“被封”，决定改为开源替代品openDesk

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

为您推荐