LLIA – 美团推出的音频驱动肖像视频生成框架

4.8

0热度

LLIA是什么LLIA（Low-Latency Interactive Avatars）是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成，支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术，减少初始视频生成的延迟，结合一致性模型训练策略和模型量化技术，显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态（如说话、倾听、空闲）及

LLIA是什么

LLIA（Low-Latency Interactive Avatars）是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成，支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术，减少初始视频生成的延迟，结合一致性模型训练策略和模型量化技术，显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态（如说话、倾听、空闲）及面部表情的精细控制，为用户提供流畅且自然的交互体验。

LLIA的主要功能

实时音频驱动的肖像视频生成：根据输入的音频信号实时生成对应的肖像视频，实现语音与表情、动作的同步。
低延迟交互：在高性能GPU上能够实现高帧率（如384×384分辨率下达到78 FPS）和低延迟（如140 ms）的视频生成，适合实时交互场景。
多状态切换：支持基于类别标签控制虚拟形象的状态，如说话、倾听和空闲状态，让虚拟形象根据场景做出自然反应。
面部表情控制：基于肖像动画技术修改参考图像的表情，从而实现对生成视频中面部表情的精细控制，增强虚拟形象的表现力。

LLIA的技术原理

扩散模型框架：LLIA用扩散模型作为基础架构，基于强大的生成能力和高保真度输出。扩散模型基于逐步去除噪声生成图像和视频。
可变长度视频生成：LLIA推出动态训练策略，让模型在推理时生成不同长度的视频片段，在减少延迟的同时保持视频质量。
一致性模型（Consistency Models）：引入一致性模型和判别器，LLIA在较少的采样步骤下实现高质量的视频生成，显著加快推理速度。
模型量化与并行化：用模型量化（如INT8量化）和流水线并行技术，进一步优化模型的推理性能，降低计算资源需求。
条件输入与控制：基于类别标签和肖像动画技术，LLIA根据输入音频的特征动态调整虚拟形象的状态和表情，实现自然的交互效果。
高质量数据集：LLIA用超过100小时的高质量数据集进行训练，包括开源数据、网络收集数据及合成数据，提升模型在不同场景下的表现能力。

LLIA的项目地址

项目官网：https://meigen-ai.github.io/llia/
GitHub仓库：https://github.com/MeiGen-AI/llia
arXiv技术论文：https://arxiv.org/pdf/2506.05806

LLIA的应用场景

虚拟面试：生成虚拟面试官或应聘者，基于实时表情和动作反馈，增强面试的真实感和互动性。
手机聊天机器人：为聊天机器人提供生动的虚拟形象，根据语音输入实时生成表情和动作，提升用户交互体验。
虚拟客服：生成虚拟客服代表，实时响应客户语音，用自然的表情和动作提升客户满意度。
在线教育：生成虚拟教师或助教，根据教学内容和学生反馈实时调整表情和动作，增强教学互动性。
虚拟社交：为用户生成虚拟形象，基于语音控制表情和动作，实现更加真实自然的社交体验。

声明：文章著作权归作者所有。本站内容来源于公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱aichina360@163.com，并在邮箱中提供有效版权证明文件给我们，我们将第一时间进行处理。

转载请注明出处： AI中国|教程|工具大全 » LLIA – 美团推出的音频驱动肖像视频生成框架

LLIA – 美团推出的音频驱动肖像视频生成框架

LLIA是什么

LLIA的主要功能

LLIA的技术原理

LLIA的项目地址

LLIA的应用场景

SeedVR2 – 字节跳动推出的视频修复模型

Next-Frame Diffusion – 北大联合微软推出的自回归视频生成模型

HistAgent – 普林斯顿联合复旦推出的AI历史研究助手

Seedance 1.0 – 字节跳动推出的视频生成模型

o3-pro – OpenAI最新版推理模型，支持调用ChatGPT全套工具

Magistral – Mistral AI推出的推理模型系列

豆包大模型1.6 – 字节跳动推出的多模态深度思考模型

Reor – 开源AI个人知识管理工具，自动连接相关笔记

MaskSearch – 阿里通义推出的检索增强预训练框架

Vui – Fluxions-AI开源的轻量级语音对话模型

InftyThink – 浙大联合北大推出的无限深度推理范式

Krea 1 – Krea AI推出的AI图像生成模型

V-JEPA 2 – Meta AI开源的世界大模型

Firesearch – Mendable AI推出的AI深度研究工具

VRAG-RL – 阿里通义推出的多模态RAG推理框架