LLIA – 美团推出的音频驱动肖像视频生成框架

LLIA – 美团推出的音频驱动肖像视频生成框架

4.8
0热度

LLIA是什么LLIA(Low-Latency Interactive Avatars)是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成,支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术,减少初始视频生成的延迟,结合一致性模型训练策略和模型量化技术,显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态(如说话、倾听、空闲)及

LLIA是什么

LLIA(Low-Latency Interactive Avatars)是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成,支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术,减少初始视频生成的延迟,结合一致性模型训练策略和模型量化技术,显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态(如说话、倾听、空闲)及面部表情的精细控制,为用户提供流畅且自然的交互体验。

LLIA

LLIA的主要功能

  • 实时音频驱动的肖像视频生成:根据输入的音频信号实时生成对应的肖像视频,实现语音与表情、动作的同步。
  • 低延迟交互:在高性能GPU上能够实现高帧率(如384×384分辨率下达到78 FPS)和低延迟(如140 ms)的视频生成,适合实时交互场景。
  • 多状态切换:支持基于类别标签控制虚拟形象的状态,如说话、倾听和空闲状态,让虚拟形象根据场景做出自然反应。
  • 面部表情控制:基于肖像动画技术修改参考图像的表情,从而实现对生成视频中面部表情的精细控制,增强虚拟形象的表现力。

LLIA的技术原理

  • 扩散模型框架:LLIA用扩散模型作为基础架构,基于强大的生成能力和高保真度输出。扩散模型基于逐步去除噪声生成图像和视频。
  • 可变长度视频生成:LLIA推出动态训练策略,让模型在推理时生成不同长度的视频片段,在减少延迟的同时保持视频质量。
  • 一致性模型(Consistency Models):引入一致性模型和判别器,LLIA在较少的采样步骤下实现高质量的视频生成,显著加快推理速度。
  • 模型量化与并行化:用模型量化(如INT8量化)和流水线并行技术,进一步优化模型的推理性能,降低计算资源需求。
  • 条件输入与控制:基于类别标签和肖像动画技术,LLIA根据输入音频的特征动态调整虚拟形象的状态和表情,实现自然的交互效果。
  • 高质量数据集:LLIA用超过100小时的高质量数据集进行训练,包括开源数据、网络收集数据及合成数据,提升模型在不同场景下的表现能力。

LLIA的项目地址

  • 项目官网:https://meigen-ai.github.io/llia/
  • GitHub仓库:https://github.com/MeiGen-AI/llia
  • arXiv技术论文:https://arxiv.org/pdf/2506.05806

LLIA的应用场景

  • 虚拟面试:生成虚拟面试官或应聘者,基于实时表情和动作反馈,增强面试的真实感和互动性。
  • 手机聊天机器人:为聊天机器人提供生动的虚拟形象,根据语音输入实时生成表情和动作,提升用户交互体验。
  • 虚拟客服:生成虚拟客服代表,实时响应客户语音,用自然的表情和动作提升客户满意度。
  • 在线教育:生成虚拟教师或助教,根据教学内容和学生反馈实时调整表情和动作,增强教学互动性。
  • 虚拟社交:为用户生成虚拟形象,基于语音控制表情和动作,实现更加真实自然的社交体验。

首页 发现
看过 我的