AudioStory – 腾讯ARC推出的音频生成模型
# AI工具,# AI项目和框架 AI视频

AudioStory – 腾讯ARC推出的音频生成模型

AI中国 AI中国 17 hours ago 187 阅读
4.8 (1280评分)

AudioStory是什么

AudioStory 是腾讯 ARC 实验室发布的音频生成技术,能根据自然语言描述生成高质量的长篇叙事音频。采用分而治之策略,将复杂叙事请求拆解为有序子任务,通过解耦桥接机制,精准协调语义与音效细节。端到端训练方式,提升了模型协同作用,生成的音频具有时序逻辑与情绪层次。

AudioStory的主要功能

  • 视频自动配音:用户上传无声视频并描述音效风格,AudioStory可自动分析视频内容,生成与之同步且风格统一的背景音轨。
  • 音频智能续写:给定一段音频,AudioStory能智能推断后续场景,自动补充合理的音频续集,如根据篮球训练的教练声音补充球员脚步声、篮球拍打声等。
  • 有声书创作:为有声书提供高质量的音频内容,根据文本描述生成具有时序逻辑与情绪层次的音频,让听众更好地沉浸在故事中。
  • 游戏音效制作:为游戏生成沉浸式的音效,根据游戏场景描述生成匹配的音频,增强玩家的游戏体验。
  • 智能播客:帮助播客创作者快速生成音频内容,根据话题描述生成相应的音频片段,提高创作效率。

AudioStory的技术原理

  • 分而治之策略:将复杂的叙事请求拆解为有顺序的子任务,分别生成对应的音频片段,再按时间轴精准编排,确保整体音频的连贯性和逻辑性。
  • 解耦桥接机制:将大语言模型与音频生成器的合作分解为桥梁查询和残差查询两个组件,分别用于事件内语义对齐和跨事件一致性保存,提升生成效果。
  • 端到端训练:采用统一的训练方式,同时优化指令理解和音频生成两个环节,增强模型各部分之间的协同作用,提高整体性能。
  • 语义令牌与残差令牌双通道机制:通过双通道分别处理宏观叙事和微观音效细节,精准协调两者关系,使生成的音频既符合整体叙事逻辑,又具备丰富的细节表现。
  • 三阶段渐进训练:从单音生成到音频协同,再到长篇叙事,逐步提升模型的性能和适应能力,使其能够更好地应对复杂的长篇叙事音频生成任务。

AudioStory的项目地址

  • Github仓库:https://github.com/TencentARC/AudioStory。
  • 论文地址:https://arxiv.org/pdf/2508.20088。

AudioStory的应用场景

  • 视频配音:根据用户提供的无声视频和音效风格描述,自动分析视频内容并生成匹配的背景音轨。
  • 音频续写:基于给定音频片段,推断后续场景并补充合理的音频续集,如为篮球训练音频添加球员脚步声等。
  • 有声书创作:依据文本描述生成具有时序逻辑和情绪层次的音频,提升有声书的听觉体验。
  • 游戏音效生成:根据游戏场景描述生成沉浸式音效,增强玩家的游戏体验。

评分

4.8 (1280 人评分)

Comment (0)

睡觉动画