开源项目 14小时前 67 浏览次数 0 评论

开源即爆火!英伟达重磅推出OmniVinci全模态大模型

机器之心Pro

全球人工智能信息服务 发布了 382 文章


全模态智能,英伟达的下一步


你是否想过,未来的 AI 将会是什么样子?


是只会打字的 Chat Bot,只会看图的 VLM,还是只能分辨声音的 ALM?


都不是! 真正的智能,应该像我们人类一样,能够同时看、听、说、写,既能看懂世界的五彩斑斓,也能听懂万物的声音。



在不久前结束的英伟达华盛顿 GTC 大会上,老黄再三强调 “研究人员需要开源。开发者依赖开源。全球的公司,包括我们都离不开开源模型。开源非常,非常,重要。” 在老黄的号召下,全模态理解模型迎来重量级新玩家 —— 英伟达(NVIDIA)开源了 OmniVinci, 一款能理解多模态世界的全模态大语言模型(Omni-Modal LLM)。该模型实现了视觉、音频、语言在同一潜空间(latent space)中的统一理解, 让 AI 不仅能识别图像、听懂语音,还能推理、对话、生成内容。这个 9B 的视觉 - 语音理解全模态模型刚上线就爆火,一周时间 Huggingface 模型权重目前已经有超过 10000 次下载量!




  • 论文标题:OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
  • 项目地址:https://github.com/NVlabs/OmniVinci
  • 论文地址:https://arxiv.org/abs/2510.15870
  • 开源模型:https://huggingface.co/nvidia/omnivinci


秀翻全场!多模态理解性能全面超越



和相近尺寸的全模态模型竞品相比,OmniVinci 在多项常用多模态基准测试榜单中取得了显著优势,包括视频 - 音频跨模态理解任务(DailyOmni +19.05),音频理解 (MMAR + 1.7),和视频理解 (Video-MME +3.9),展现出卓越的全模态理解能力。更重要的是,OmniVinci 少用了近 6 倍的数据量实现了超越,展现了其架构和数据引擎的卓越效率。


三大架构创新:让视觉与听觉在同一空间共鸣



OmniVinci 不仅具备炸裂的榜单性能,其论文中通过大量科学实验探索最优全模态模型架构的方法,而不是粗暴堆叠训练数据,这种做法显然更值得借鉴。想象一下,AI 看视频时,画面(视觉)和声音(音频)是两条独立的信息流。如果模型架构对此处理不好,AI 就会 “精神分裂”。而 OmniVinci 的目标就是让它们完美同步,通过三项核心创新设计来实现:


OmniAlignNet:跨模态语义对齐网络


这就像一个 “超级翻译器”,让模型在同一空间中 “看得见声音,听得懂画面”。它创建了一个共享空间,通过对比学习 ,让视觉信号和音频信号能在这里用同一种 “语言” 无障碍交流,实现跨模态深度对齐



Temporal Embedding Grouping (TEG):时间嵌入分组机制


将视觉帧与音频信号按时间戳重组,使模型能跨模态感知事件的相对先后关系。AI 终于能搞清楚,是 “先开枪再有枪声”,还是 “先有闪电再有雷声”。它通过按时间戳分组,让 AI 理解事件的先后顺序 。



Constrained Rotary Time Embedding (CRTE):受约束旋转时间嵌入


通过时间旋转编码,模型获得绝对时间感知能力。AI 不仅知道 “先” 和 “后”,还知道这件事发生在视频的第 5 秒,还是第 50 秒。



有了这三板斧,OmniVinci 才真正拥有了准确感知视觉,音频和时间流逝的能力。


数据引擎:24M 多模态对话的背后



模型强度离不开数据支撑。OmniVinci 团队构建了一个庞大的全模态数据引擎(Omni-Modal Data Engine),共涵盖 2400 万条多模态对话样本,覆盖图像、视频、音频、语音四大领域。数据分布中,图像占 36%、音频与语音共占 38%、视频 11%、全模态数据 15%。其中包括两种创新的全模态学习方式:


  • 隐式全模态学习(Implicit Learning)


直接利用现有视频自带音频的问答数据,让模型在 “看视频” 的同时 “听声音”。


  • 显式全模态学习(Explicit Learning)


通过 AI 单独生成视觉和音频模态专属的描述,再由 LLM 进行交叉修正与融合,解决了单模态模型常见的 “幻觉”(如只看画面误判语义)。


实验:打造全模态模型的关键洞察


[关键洞察 1] 单一模态打标 = 不靠谱!告别 “模态幻觉”


团队发现,很多 AI 模型都有 “模态幻觉”: 只看图(视觉):AI 看到一个深海机器人,可能会 “脑补” 说这是人类高科技的胜利 。只听声(音频):AI 听到旁白说 “地球最深处”,可能会 “瞎猜” 说这是关于地心的纪录片 。因此一个集成了两种模态的联合字幕方法对于全面理解至关重要。



[关键洞察 2] 1 + 1 > 2!当听觉 “点亮” 视觉


加上音频,模型真的变强了吗?答案是肯定的! 团队发现,声音为视觉提供了全新的信息维度,音视频联合学习能显著提高视频的理解能力 。只用视觉 (Visual Alone) 视觉 + 音频 (隐式学习 IL) 视觉 + 音频 + 全模态数据引擎 (显式学习 EL) 结果显示 (见下表),每增加一步,性能都在飙升!特别是加入了数据引擎的 “显式学习” 后,模型性能在多个基准上都实现了巨大飞跃。



[关键洞察 3] 王牌对王牌:当 OmniVinci 遇上 “强化学习”


基础模型已经这么强了,还能再进化吗? 能!通过强化学习 (RL)!


音频,让强化学习 “如虎添翼”! 团队在使用 GRPO 强化学习框架时发现了一个 “隐藏 Buff”: 只给 AI 看视频(视觉)去训练,远不如 “边看边听”(视听结合)的效果好! 如图所示,加入音频后,模型的收敛速度更快。



强强对决,OmniVinci 更胜一筹! 在这个多模态 RL 框架下,OmniVinci 和 Qwen2.5-Omni 都能获益 。但是,OmniVinci 凭借更强的基础性能和指令跟随能力,在 15 步内就超越了 Qwen2.5-Omni 的准确率,并且格式奖励收敛速度快了 2.7 倍 ! 最终,经过 RL 训练的 OmniVinci+RL,在所有全模态基准上再次实现全面提升!




不止是 SOTA,是全能 Agent


跑分只是基础,真正的全模态 AI,必须能在真实世界 “大显身手”。


OmniVinci 做到了。研究团队用它测试了 N 个真实场景,效果非常好 :


场景一:联合视听感知


你给它一段播客视频,它不仅能看懂主持人和嘉宾的外形,更能 “听懂” 他们讨论的复杂话题。



场景二:语音转录 + 翻译


你对它说话,它能瞬间转录成文字。



场景三:全语音交互


你用语音问:“这个演讲者的公司使命是啥?”


它立刻用语音答:“他的公司使命是在火星上建立一个自我维持的文明。”



场景四:指挥机器人,直接 “张嘴说”!


OmniVinci 能直接听懂你的语音指令(比如 “进入卧室,在床脚站住” ),然后规划下一步行动。这才是真正实用的人机交互!



场景五:AI 看懂 “专家会诊”!


医生一边滚动查看 CT 影像,一边用嘴说出诊断(“这里我们看到一些肺大疱和相关的纤维化改变...” ) 。OmniVinci 能同时 “看” CT 影像的动态变化 ,并 “听” 懂医生的专业解说 ,准确回答 “肺部纹理随时间如何变化?” 这类高难度问题,在医疗 AI 上大展身手 !



场景六:AI “全能解说” 体育比赛!


看网球比赛,AI 不再是 “睁眼瞎”。OmniVinci 能同步理解激烈的视觉动作(谁在发球、谁赢了这一分)和解说员的评论。在预测得分结果和回合长度上,它完胜 Qwen2.5-Omni。更重要的是,量化后在消费级显卡 GeForce RTX 4090 上它延迟极低,完全可以用于电视直播!




这不就是贾维斯吗?


写在最后


OmniVinci 的出现,可能不仅仅是一个新 SOTA 9B 全模态模型的诞生,它更代表了一种全新的 AI 范式。


未来,AI 不再是割裂的 “视觉模型” 或 “音频模型”,而是统一的 “全模态感知系统”。


更低的训练成本,意味着更快的迭代和更广泛的应用。从能听懂指令的机器人,到能理解医生口述和 CT 影像的医疗 AI,再到监控异常声音和画面的智能工厂,一个更智能的未来,正在加速到来。


英伟达这次,又交出了一份惊艳的答卷。


对于 OmniVinci,你怎么看?你最期待它被用在什么地方?欢迎在评论区留下你的 “神预言”!

机器之心Pro

机器之心Pro

全球人工智能信息服务

382 文章 60804 浏览次数 0 粉丝

评论 (0)

睡觉动画