AI热点 14小时前 91 浏览次数 0 评论

商汤日日新6.5升级!造办公智能体,推具身智能平台,让机器人讲解PPT

智东西

发布了 34 文章

智东西

作者 | ZeR0

编辑 | 漠影

智东西7月29日报道,在世界人工智能大会WAIC 2025上,商汤科技发布全新「日日新SenseNova V6.5」大模型体系「悟能」具身智能平台,商汤旗下核心产品商汤小浣熊也完成智能体升级

日日新V6.5重点升级了强推理、高效率、智能体三大能力,率先突破图文交错思维链技术,同时改进多模态模型的融合架构,相比V6.0显著提升性价比,文本推理能力和多模态推理能力超越Gemini 2.5 Pro、Claude-4 Sonnet,多模态交互能力超越Gemini 2.5 Flash和GPT-4o。

此次发布的为什么是V6.5,还不是V7?全国工商联人工智能委员会主席团首任轮值主席、商汤科技董事长兼CEO徐立解释说,因为多模态思维链构造数据还能做到更大的扩充,所以利用商汤原来视觉感知的能力,再加上视觉和文本之间关系的建立,多模态思维链构造能进一步助力其基模型核心能力提升。

基于日日新V6.5的多模态数据分析能力,综合智能助手商汤小浣熊升级,支持多模态复杂输入、多模态融合深入分析、多模态结果输出,在数据分析和智能体领域的实测中达到国际标杆Claude 4 Opus的水平,大幅领先OpenAI o3等模型。

商汤还推出了面向特定场景的商汤小浣熊教育版和商汤小浣熊金融版。截至目前,“商汤小浣熊家族”产品矩阵已广泛服务多行业企业,用户数量实现1000万+

面向具身智能领域,商汤提供基于其世界模型的「悟能」具身智能平台,可为机器人等各种终端硬件提供感知理解能力,并支持嵌入到端侧芯片,灵活适配不同场景。

一、日日新V6.5:三大升级,多模态推理与交互性能大幅提升

商汤「日日新V6.5」多模态基座大模型带来三大升级:

  • 强推理:图文交错多模态思维链,推理性能比肩Gemini 2.5 Pro、Claude-4 Sonnet;
  • 高效率:多模态架构优化,性价比提升3倍以上;
  • 智能体:数据分析大幅领先,支持端到端的场景落地,实现价值闭环。

通过多模态思维链数据进阶图文交错思维链数据合成,商汤「日日新V6.5」多模态推理与交互性能实现了大幅提升:文本推理能力和多模态推理大幅提升,超越Gemini 2.5 Pro、Claude-4 Sonnet;多模态交互能力超越Gemini 2.5 Flash和GPT-4o,各方面性能突出

商汤「日日新V6.5」率先突破图文交错思维链技术,在大模型中引入形象思维,成为国内首个实现图文交错思维的商业级大模型

在人类的思考中,形象思维和逻辑思维同等重要,两者有机结合才能形成全面的思维能力。所谓“一图胜千言”,一幅图往往比大段文字更能引发有效思考。当前,主流的多模态模型虽然已经实现了在输入端融合多种模态,但思考推理过程依然主要依赖语言推理,图形和空间推理仍存在短板。

多模态思维链构造的关键在于信息的图形化表达,相比纯文本思维链更具挑战,不仅要呈现文字思考过程,还需生成作为思考节点的图像,难以通过纯人工方式大规模实现。

商汤研发团队先基于对思维过程的理解构造种子数据,经监督微调(SFT)训练让模型初步具备图文交错思考能力,再通过多轮强化学习显著提升多模态推理能力。

同时,商汤改进了多模态模型的融合架构,促进跨模态早期融合。新架构采用了显著变轻的视觉编码器,以及深而窄的主干模型,使得视觉表征在前馈计算早期就与语言进行对齐和交融,从而令感知更高效,模态融合更深。

得益于模型架构的改进,商汤日日新V6.5在实现成本优化的同时,预训练吞吐量提升了20%以上,强化学习效率提升了40%,推理吞吐量提升了35%以上,取得性能和成本的平衡:相较日日新V6.0,日日新V6.5将性价比提升了3倍

二、综合智能助手商汤小浣熊升级,要打造“办公最强智能体”

大语言模型已成为不少人的工作辅助工具,但仅靠大语言模型,不足以让AI完成从“工具”向“人”的跃升。

人类的日常任务活动,天然涉及对文本、图像、视频、网页等多模态信息的处理。从生产力工具到生产力,关键就在于多模态信息的输入、处理与输出能力。

基于「日日新V6.5」的多模态数据分析能力,商汤小浣熊全面升级:能够胜任多模态复杂输入,进行多模态融合深入分析,给出多模态结果输出,实现专业的可视化呈现,打造“办公场景的AI生产力”。

同时,商汤小浣熊始终保持世界领先的复杂数据分析能力。在客户场景的综合测试中,小浣熊达到在数据分析和智能体领域的国际标杆Claude 4 Opus的水平,大幅领先OpenAI o3等模型,在时序计算、数据匹配、数理计算和异常检测等任务中,准确率均可接近100%

现实办公场景中,数据输入形式极为复杂。在数据分析场景中,截图、文档和PDF等各类文档样式屡见不鲜,而其中结构化信息及表格仅占约70%。即便是看似基础的Excel表格,也常包含合并单元格、缺失值、嵌套子表格及内嵌图表等复杂元素,大幅提升处理难度。

商汤小浣熊能以多模态思维实现全局分析,通过思维链构造进行多步思考与反思,最终输出结构化的结果。

一个表格看着简单,背后的逻辑因果却非常复杂,如今商汤小浣熊可以让复杂表格简单化

用户上传包含合并单元格、缺失值、子表格、内嵌图表及外部图片的复杂Excel表格。商汤小浣熊能够精准解析表格内容,建立子表格间的逻辑关联,最终生成完整的分析报告。

再比如一个复杂输入的用户案例,小商户在抖音等视频平台刷到有用的表格内容,截图后上传。商汤小浣熊可以通过图片信息分解任务并去除干扰,提取表格信息,一键导出可编辑的Excel表格供用户填写,输入、分析、输出全程都有多模态能力支持顺畅进行。

传统AI工具多扮演辅助角色,核心工作仍依赖用户主导完成;而商汤小浣熊实现了交互范式的升级——由AI主动承担核心任务,并通过精准提问和用户确认关键信息,交互逻辑如同同事协作

商汤小浣熊任务规划功能的新颖交互模式,更利于用户理解。

以前段时间大火的“苏超”为例,用户上传图像表格,要求分析“苏超”TOP球员。商汤小浣熊会自动抓取网上信息,并依托专家知识生成任务清单(如确定 “TOP5” 标准,分析青训成绩等)进行系统性分析,最终生成高质量分析文档,还可导出为Excel、PPT、HTML等可编辑格式。

整体流程如下:

放大来看,AI是这么做任务拆解与规划的:

当接收任务后,小浣熊会主动梳理任务细节,就关键节点向用户提出明确问题(如“是否需要按以下1、2、3点推进?”),以确保任务方向准确,真正实现“AI主导干活、用户决策把关”的高效模式。

接下来就能依据专家知识生成任务清单(如确定“TOP5”标准,分析青训成绩等)进行系统性分析,下一步该做什么、可以怎么商量着做一目了然。

专业数据+工具调用,实现高质量内容过程:

最终生成高质量分析文档,还可导出为Excel、PPT、HTML等可编辑格式。

凭借复杂任务处理能力,商汤小浣熊加速向行业渗透,此次推出了面向两大具体场景的特制版本——教育版金融版

商汤小浣熊教育版可智能分析学生学习表现、课程效果、学习行为模式分析,已覆盖500+院校、10余种教育场景、25万+教师和学生,并已在多所学校协助教研团队,帮助学生提升学习效率15~30%,降低学业焦虑发生率40%,课堂参与度提高2.1倍,资源错配率降低30%,心理健康干预及时性提升了50%。

商汤小浣熊金融版可为金融业提供知识助手、智能问数、多模态智能理赔产品与解决方案,构建金融领域的 “人机协同” 智能决策新范式。

三、「悟能」具身智能平台:让机器人自然讲解PPT,可构建4D真实世界

商汤「悟能」具身智能平台以商汤具身世界模型为核心引擎,依托商汤大装置提供端侧和云侧算力支持,能够为机器人、智能设备提供强大的感知、视觉导航及多模态交互能力,推动智能终端向更高层次的自主化与智能化演进。

商汤的世界模型叫“开悟”,“悟能”是“开悟智能”的缩写。

该平台可赋能机器人等各种终端硬件,实现对世界万物的感知理解能力,并支持嵌入到端侧芯片,具有强大的场景适配性。

徐立展示了搭载具身世界引擎的人形机器人。它能生动讲解“长安的荔枝”PPT的效果,语言自然,风趣幽默,不仅可以自动翻页,还能回答各类问题,并进行阶段性小结。

商汤具身世界模型可生成多视角视频,并确保良好的时间一致性和空间一致性,让机器能够理解、生成、编辑真实世界,在空间层面实现世界交互,让“在真实的街道场景中玩‘极品飞车’”成为可能。

该模型还能构建面向人、物、场的4D真实世界。用户仅需要输入简单的提示词,比如“在厨房区域的架子上找东西”,“进入娱乐室、向右转,然后打开通往院子的门”等等,具身世界模型就能自主进行位姿、动作骨架和指令的生成。

徐立说,有了这样的一套模型,有了这样赋能的一个基础,「悟能」具身智能平台最终能帮助各种各样具身智能企业实现跟现实世界交互的梦想。

在世界人工智能大会展区,商汤科技的展台吸引了大量参观者驻足,一个会解说PPT的人形机器人成为全场焦点。

这台机器人基于商汤最新的日日新V6.5多模态大模型,拥有强大的音视频处理和AI交互能力,能像人一样,边翻页讲解PPT,边应答观众提问,即便在嘈杂的环境中,也能完成实时、流畅的互动。

傅利叶、钛虎、鹿明、鲸鱼AI、帕西尼等多家机器人也亮相商汤展台。

在商汤联合生态伙伴“朋友圈”打造的智能生态硬件展区,各类基于日日新V6.5多模态大模型的智能硬件产品琳琅满目,有能和人类一样对弈下棋的元萝卜AI下棋机器人、能给孩子讲解各种知识的灵宇宙随身学伴、全球首款宠物喂养AI毛绒玩具、芙崽AI养成潮玩等,展现了AI给生活、学习带来的全新体验。

商汤还全面展示了AI基础设施商汤大装置,“开悟”世界模型,以及商汤商量、办公小浣熊、代码小浣熊、咔皮记账、咔皮action、如影数字人、Seko短片创作 Agent等各类AI原生应用,还有面向商业的金融智脑、AI问客多模态文旅讲解产品、SensePedia企业级智能知识平台、面向智慧城市的Monolith新一代感知模型生产平台等创新成果。

结语:锚定多模态能力,提升生产力和交互体验

1950年,图灵通过“模仿游戏”将AI定义为“类人能力”,但实际的AI一直未能摆脱“工具”的范畴,一度陷入发展低谷。而在大模型时代,AI凭借多模态融合能力的突破,逐步触达AGI边界,真正开始向“类人”标准靠近。

从学习到陪伴再到服务,大模型正把 “智能” 搬进现实生活。商汤科技通过日日新V6.5,用多模态能力来推动生产力和交互体验提升,与行业共赴下一阶段AI进化的新征程。

“商汤科技始终探寻人工智能本质,以技术创新激发最大智能,推动AI完成从‘工具’到‘人’的跃迁,成为真正的生产力。”徐立说。

智东西

智东西

34 文章 4392 浏览次数 0 粉丝

评论 (0)

睡觉动画