全新音频问答模型 Omni-R1：利用文本驱动的强化学习和自动生成的数据推进音频问答

4.8

0热度

ChatGPT APP

最近，一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omni 的基础上，通过一种名为 GRPO（Group Relative Policy Optimization）的强化学习方法进行优化，显示出在音频问答任务中的出色表现。Omni-R1在著名的 MMAU 基准测试中创造了新的最先进成绩，涵盖了声

Omni-R1在著名的 MMAU 基准测试中创造了新的最先进成绩，涵盖了声音、语音和音乐等多个音频类别。研究团队指出，尽管模型的训练涉及音频数据，但其性能提升的主要原因竟然是文本推理能力的增强。这一发现让人惊讶，因为即使仅使用文本数据进行微调，模型的表现也取得了显著的提升。

为此，研究人员利用 ChatGPT 生成了大量音频问答数据，创建了两个新的数据集:AVQA-GPT 和 VGGS-GPT。这两个数据集分别包含4万和18.2万条音频数据，进一步提升了 Omni-R1的准确性。在训练过程中，Omni-R1的表现超过了以往的基线模型，包括 SARI，平均得分达到71.3%。研究表明，尽管使用音频进行微调稍微优于仅使用文本，但后者的贡献同样不可忽视。

GRPO 方法的一个关键优点是其内存效率，使得在48GB 的 GPU 上能够有效运行。该方法通过比较分组输出，基于答案的正确性来进行奖励，而无需使用复杂的价值函数。研究人员通过扩展 Qwen-2Audio 的音频描述来增加训练数据，这种策略使得模型在多模态任务上更具竞争力。

Omni-R1不仅在音频问答领域设立了新的标杆，还展示了文本推理在音频模型性能中的重要性。未来，研究团队承诺将发布所有相关资源，以便更多研究人员和开发者能够利用这一成果。

论文:https://arxiv.org/abs/2505.09439

划重点:
🔍 Omni-R1是基于 Qwen2.5-Omni 模型，通过 GRPO 强化学习方法优化而成的音频问答模型。
📈 该模型在 MMAU 基准测试中取得了新高度，文本推理能力的提升被认为是主要原因。
🛠️ 研究团队通过 ChatGPT 生成新数据集，极大地提升了模型的训练效果和准确性。

本文分类：AI热点
本文标签：无
浏览次数：121 次浏览
发布日期：2025-05-19 11:42:16
本文链接：https://aichina360.com/AIredian/MrOPejvVkAnEmRmqYXRgN6d8542J70qZ.html
声明：内容来源于公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱aichina360@163.com，并在邮箱中提供有效版权证明文件给我们，我们将第一时间进行处理。

评论列表共有 0 条评论

暂无评论

全新音频问答模型 Omni-R1：利用文本驱动的强化学习和自动生成的数据推进音频问答

四部门联合发布《人工智能生成合成内容标识办法》，9 月 1 日起施行

富士康与英伟达携手打造100兆瓦人工智能数据中心

微软宣布Windows11原生支持MCP

英伟达发布 GR00T N1.5 人形机器人 AI 基础模型，黄仁勋称将推动“下一代工业革命”

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复