SongGeneration是什么
SongGeneration是腾讯AI Lab推出的AI音乐生成大模型。模型支持解决音乐AIGC领域中的音质、音乐性与生成速度等关键问题,SongGeneration基于LLM-DiT融合架构,显著提升音质表现和生成速度,生成歌曲的质量在多个维度上优于多数开源模型,部分指标媲美商业闭源模型。SongGeneration支持文本控制、多轨合成、风格跟随等功能,满足创作者的可玩性,具备商业应用的稳定性和拓展性。SongGeneration广泛应用在短视频配乐、游戏音效、虚拟人演出、商业广告及个人音乐创作等场景,推动AI音乐创作从“辅助工具”迈向“智能共创”的新阶段。

SongGeneration的主要功能
- 文本控制:输入关键词文本,如“开心 流行”,AI快速生成对应风格和情绪的完整音乐作品。
- 风格跟随:上传10秒以上参考音频,支持生成风格一致的全长新曲,涵盖多种流派。
- 多轨生成:自动生成分离的人声与伴奏轨道,保证旋律、结构、节奏与配器高度匹配。
- 音色跟随:基于参考音频的音色跟随,实现“音色克隆”级别的人声表现,自然且有情感。
SongGeneration的技术原理
- LeLM(Language Model):混合标记(Mixed Tokens)代表人声和伴奏的组合音频,用在捕捉歌曲的整体结构和节奏,确保人声与伴奏的和谐。双轨标记(Dual-Track Tokens)分别编码人声和伴奏,用在生成高质量的音频细节。LeLM 能并行预测混合标记和双轨标记,避免不同标记类型之间的干扰,提高生成质量和效率。
- 音乐编解码器(Music Codec):编码器(Encoder)将音乐音频提取为混合标记和双轨标记。解码器(Decoder)将双轨标记重建为高保真的音乐音频,确保生成的歌曲具有高质量的音频表现。
- 多偏好对齐(Multi-Preference Alignment):直接偏好优化(DPO)基于半自动数据构建和 DPO 后训练,处理多样化的人类偏好,提高模型在音乐性、指令遵循和人声与伴奏和谐方面的表现。多维度偏好支持歌词对齐、提示一致性、音乐性等多个维度的偏好对齐,提升生成歌曲的整体质量。
- 三阶段训练范式:
- 预训练(Pre-training):在大规模音乐数据上进行预训练,对齐不同输入模态和混合标记。
- 模块扩展训练(Modular Extension Training):进一步训练 AR 解码器,建模双轨标记,提升音质和音乐性。
- 多偏好对齐(Multi-Preference Alignment):基于 DPO 后训练,优化模型在多维度偏好上的表现。
SongGeneration的项目地址
- GitHub仓库:https://github.com/tencent-ailab/SongGeneration
- HuggingFace模型库:https://huggingface.co/tencent/SongGeneration
- arXiv技术论文:https://arxiv.org/pdf/2506.07520
- 在线体验Demo:https://huggingface.co/spaces/tencent/SongGeneration
SongGeneration的核心优势
- 低比特率音乐编解码:实现25Hz极低码率和0.35kbps超低比特率下的高质量音乐重建,减轻语言模型建模负担。
- 多类别token并行预测:基于“混合优先,双轨其次”策略,避免token相互干扰,提升音质和音乐性。
- 多维度人类偏好对齐:对齐音乐性、歌词对齐、提示一致性偏好,提升模型效果和鲁棒性。
- 三阶段训练范式:预训练、模块化扩展训练、多偏好对齐训练,优化音乐生成效果。
SongGeneration的性能表现
- 主客观整体测评:在与三款商业模型(Suno v4.5、海绵音乐、Mureka O1)和四款开源模型(YuE、DiffRhythm、ACE-Step、SongGen)的全方位主客观评测对比中,SongGeneration在开源模型中稳居第一,在商业模型中位列前茅,展现出显著的竞争优势。
- 客观测评(第三方开源模型评测):在客观测评横向对比中中,SongGeneration在内容欣赏度(CE)、内容实用性(CU)和制作质量(PQ)三个关键维度上均位列榜首,制作复杂度(PC)处于领先位置。
- 主观评测(普通用户 + 专业音乐人评测):在主观评测中,SongGeneration在歌词准确度上超越包括Suno在内的众多大模型,体现模型在语音与文本对齐能力上的显著优势,及在内容生成细节处理方面的成熟度。

SongGeneration的应用场景
- 音乐创作:SongGeneration为音乐人和制作人提供高质量歌曲草稿,节省创作时间,助力专注核心创作,激发创意。
- 娱乐产业:在影视、游戏、广告等娱乐领域,SongGeneration快速生成契合需求的配乐,增强作品沉浸感与吸引力,丰富音乐内容。
- 教育领域:作为音乐教育工具,SongGeneration帮助学生理解音乐基础知识,激发创造力,辅助在线课程提供示例歌曲,提升教学效果。
- 广告和营销:SongGeneration为广告和品牌生成贴合主题的音乐,提升广告吸引力和品牌认同感,助力品牌营销。
- 个人娱乐:普通用户用SongGeneration创作个性化歌曲,表达情感,分享社交平台,增添娱乐互动乐趣。