AudioStory – 腾讯ARC推出的音频生成模型

# AI工具,# AI项目和框架 AI视频

AudioStory – 腾讯ARC推出的音频生成模型

AI中国

AI中国 9月前 308 阅读

4.8 (1280评分)

AudioStory是什么

AudioStory 是腾讯 ARC 实验室发布的音频生成技术，能根据自然语言描述生成高质量的长篇叙事音频。采用分而治之策略，将复杂叙事请求拆解为有序子任务，通过解耦桥接机制，精准协调语义与音效细节。端到端训练方式，提升了模型协同作用，生成的音频具有时序逻辑与情绪层次。

AudioStory的主要功能

视频自动配音：用户上传无声视频并描述音效风格，AudioStory可自动分析视频内容，生成与之同步且风格统一的背景音轨。
音频智能续写：给定一段音频，AudioStory能智能推断后续场景，自动补充合理的音频续集，如根据篮球训练的教练声音补充球员脚步声、篮球拍打声等。
有声书创作：为有声书提供高质量的音频内容，根据文本描述生成具有时序逻辑与情绪层次的音频，让听众更好地沉浸在故事中。
游戏音效制作：为游戏生成沉浸式的音效，根据游戏场景描述生成匹配的音频，增强玩家的游戏体验。
智能播客：帮助播客创作者快速生成音频内容，根据话题描述生成相应的音频片段，提高创作效率。

AudioStory的技术原理

分而治之策略：将复杂的叙事请求拆解为有顺序的子任务，分别生成对应的音频片段，再按时间轴精准编排，确保整体音频的连贯性和逻辑性。
解耦桥接机制：将大语言模型与音频生成器的合作分解为桥梁查询和残差查询两个组件，分别用于事件内语义对齐和跨事件一致性保存，提升生成效果。
端到端训练：采用统一的训练方式，同时优化指令理解和音频生成两个环节，增强模型各部分之间的协同作用，提高整体性能。
语义令牌与残差令牌双通道机制：通过双通道分别处理宏观叙事和微观音效细节，精准协调两者关系，使生成的音频既符合整体叙事逻辑，又具备丰富的细节表现。
三阶段渐进训练：从单音生成到音频协同，再到长篇叙事，逐步提升模型的性能和适应能力，使其能够更好地应对复杂的长篇叙事音频生成任务。

AudioStory的项目地址

Github仓库：https://github.com/TencentARC/AudioStory。
论文地址：https://arxiv.org/pdf/2508.20088。

AudioStory的应用场景

视频配音：根据用户提供的无声视频和音效风格描述，自动分析视频内容并生成匹配的背景音轨。
音频续写：基于给定音频片段，推断后续场景并补充合理的音频续集，如为篮球训练音频添加球员脚步声等。
有声书创作：依据文本描述生成具有时序逻辑和情绪层次的音频，提升有声书的听觉体验。
游戏音效生成：根据游戏场景描述生成沉浸式音效，增强玩家的游戏体验。

评分

4.8 (1280 人评分)

评论 (0)

推荐文章

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci – NVIDIA推出的全模态大语言模型

7月前 • AI视频

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

7月前 • AI视频

FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型

FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型

7月前 • AI视频

NavFoM – 银河通用推出的环视导航基座大模型

NavFoM – 银河通用推出的环视导航基座大模型

7月前 • AI视频

Handy – 开源的语音转文字桌面应用，完全离线

Handy – 开源的语音转文字桌面应用，完全离线

7月前 • AI视频

UniWorld V2 – 兔展智能联合北大推出的图像编辑模型

UniWorld V2 – 兔展智能联合北大推出的图像编辑模型

7月前 • AI视频

讯飞星火X1.5 – 科大讯飞推出的深度推理大模型

讯飞星火X1.5 – 科大讯飞推出的深度推理大模型

7月前 • AI视频

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI视频

热门标签

汽车芯片 Claude-4.1-Opus UIBench Rivr Liquid 被提及音乐综合万物研究所·第八期 LMME3DHF casbin

热门作者

AI中国

AI中国

11569 文章 95.03万关注

钛媒体APP

钛媒体APP

1489 文章 0 关注

IT之家

IT之家

1221 文章 5.64K 关注

人人都是产品经理

人人都是产品经理

1210 文章 5.87万关注

AIbase基地

AIbase基地

1093 文章 9.63万关注