多模态和Agent成为大厂AI的新赛点

声明：本文来自于微信公众号窄播，授权站长之家转载发布。

这是《窄播Weekly》的第52期，本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景，多模态能力和代理执行成为两个焦点。

大模型落地C端场景的核心，就是让大模型的能力越来越接近人。沿着这个主旋律，可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现，需要给到大模型多模态能力;后者则需要依托于Agent产品生态的不断成熟。

多模态方面，字节、百度、谷歌、OpenAI都在近期推出了多模态能力更强的基础大模型产品，为相应的应用创新带来了可能。阿里旗下的AI to C产品夸克，就在本周上线了基于「通义推理及多模态大模型+后训练」实现的「拍照问夸克」功能。

代理执行层面，在Manus指出方向之后，类似的通用Agent产品也在近期纷纷上线。其中就包括了字节旗下的扣子空间、百度的心响App、360的纳米AI、前百度高管的Genspark等。这些产品都主打一站式完成用户通过自然语言布置的复杂任务，并且都具有编写代码和连接第三方数据、工具的能力。

相比国内，海外巨头会更倾向于打造服务于单一场景的Agent。Notion推出了AI驱动的电子邮件服务Notion Mail，帮助用户组织电子邮件、起草回复、搜索消息等。OpenAI此前推出的Operator和Deep Research也分别聚焦在操作浏览器和研究领域。X AI则增加了Grok Studio，用来协助用户生成文档、代码、报告和小游戏。

从目前能够体验到的产品来看，多模态能力和代理执行能力的提升，确实为用户带来了更低门槛、更高效率的AI使用体验。套用微软CEO纳德拉夸赞自家Cop ilot体验的话，具备执行能力的通用Agent就是在为用户搭建一个脚手架，并在上面放好趁手的工具，助力用户完成日常工作、学习、生活相关的任务。

当这个产品成熟时，人们会发觉自己的工作、学习、生活的体验可能已经被其改变。但改变不是一个短期过程。这些还处于早期探索阶段的产品，在细节上差强人意，需要一段时间去打磨，从用户意图理解、第三方工具调用和相应内容的生成等方面，全方位提升产品体验。

从现阶段看，模型能力的强弱依然非常重要。大模型能力的提升和成本的降低，确实刺激了AI应用的爆发，也再次让人们看到了百度创始人李彦宏口中「应用统治未来世界」的可能。

但是，大模型技术还在持续突破，目前我们看到的Agent的不足之处，很多需要依靠模型能力的提升来完善。甚至未来有可能会实现「模型即应用」，画图有画图的模型，分析图表有分析图表的模型。现在看，OpenAI有向这个方向前进的倾向。

Agent的终局到底是什么，现在看来尚无定论。

多模态正在渗透进现实场景

从近期的大模型发布来看，多模态是重要的能力培养方向。字节旗下火山引擎发布的豆包1.5深度思考模型，能够结合视觉理解能力完成看图分析地貌、生成项目流程图等工作。李彦宏在介绍文心4.5Turbo时，通过识别马拉多纳「上帝之手」的照片和水槽实验视频中的不同颜色物体，展示了图像和视频的理解能力。

此外，OpenAI最新发布的o3和o4-mini也都具备看图表和自己画图的多模态理解能力。OpenAI称其首次实现了「用图像思考」。谷歌发布的首个混合推理模型Gemini2.5Flash能够比较精准地分析股票走势图，并能根据给到的素材图生成游戏场景设计图。

不断提升多模态推理能力的同时，各个厂商都在为这种能力寻找第一块试验田。夸克在推出AI超级框概念之后，最新上线了拍照问夸克功能，就是在将大模型的多模态能力注入到AI超级框中，让用户不但能够通过文字完成与AI超级框的交互，还能实现图文并茂的沟通。

在实际的使用过程中，我们发现拍照问夸克功能基本可以满足「拍照搜索」的体验，比如拍摄一个梅瓶的陈列，夸克可以回答出梅瓶的由来，以及它在宋朝会被用来盛酒。用户还可以拍摄照片，让夸克根据照片生成文案，或者识别食物的卡路里、辨别景点并给到游玩攻略。

通过加入图像，夸克可以让用户给AI下达更加精准的任务，然后调用夸克积累的Agent和原子功能，更好地完成任务。

这其实是在让摄像头成为用户赋予AI的眼睛，未来可能不止依靠拍照，还会有直接通过摄像头进行的实时交互。这也是谷歌试图实现的多模态交互体验。

在谷歌多模态搜索产品负责人Rajan Patel的畅想中，多模态能力的融入，会让搜索变得毫不费力。用户在谷歌可以打字、可以说话、可以拍照，可以对着摄像头说自己需要什么，而谷歌将利用大模型、产品能力，帮助用户快速连接到相关且正确的信息。

也因此，多模态能力的提升，会影响到AI眼镜的进展。一位AI硬件创业者告诉《窄播》，现在之所以没有选择AI眼镜的方向，是因为多模态大模型还不成熟，他无法根据使用场景去进行产品定义。但是面向未来，类似用户与拍照问夸克的交互可能会从手机迁移到眼镜。

代理执行需要三个能力

多模态提升的是交流效率，Agent的重心则在于执行。

在2024年下半年，具备任务执行能力和系统操控能力的Agent就已经成为一门显学。但当时有两个问题尚待解决:一个是Agent产品的形态应该是什么样?另一个则是Agent与第三方数据、工具之间应该如何实现连接?

Manus的出现为大家指出了前进方向——通过对话框+工作区的方式，呈现Agent的工作场景，然后基于大模型能力理解、拆分用户任务意图，调用不同工具模块，协同完成任务。虽然会被人称作「缝合怪」，但是Manus确实让面向C端用户的通用Agent产品的雏形显现出来了。

近期发布的扣子空间、心响App、纳米AI的Agent能力以及Genspark基本都遵循了这个雏形模版。扣子空间分为三个部分，左边部分是任务目录，中间部分是任务交互区，右边可以展开一个Agent的工作空间。同时，扣子空间还会支持添加扩展，以及选择探索和规划两种思考深度不同的模式。

从使用上看，扣子空间更擅长完成文字梳理工作。但在将梳理出的文字转化为网页时，扣子空间的效果会打折扣。我们尝试让扣子空间生成了一份腾冲旅游攻略、一个展示秦灭六国过程的网页和一次AI新闻汇总。文字版的腾冲旅游攻略要更详细，转化为网页后，信息量会被稀释，美食的配图也会出现问题。后两个任务也不太令人满意。

百度的心响App的特殊之处是选择了在移动端上线，相对可以完成的任务就会更轻量化和生活化，其推荐任务中不仅有旅游攻略、数据分析等通用Agent产品常见的任务，还会有数学解题、AI相亲、例行任务等类似聊天机器人的功能。整体感觉，心响App是文小言的Agent进化版。

我们认为，目前想要优化具体的任务体验，通用Agent们需要持续培养三个关键能力。

第一个是，能否连接足够数量的第三方数据和工具。MCP（Model Context Protocol，支持大模型与外部数据、工具集成的开源协议）和A2A(Agent2Agent，智能体协作协议)的推出，不但让第三方数据、工具有了顺畅接入通用Agent的统一接口，还赋予了Agent与Agent之间的交互、协作能力。

目前，国内厂商基本都接受了这种连接解决方案，接下来需要解决的是，如何扩充有效的工具箱。

纳米AI主打的卖点是「MCP万能工具箱」，号称接入了近百个优质第三方工具。扣子空间的扩展相对要少很多，而且有些只具备简单功能。以腾冲攻略为例，我可以用扣子空间里的墨迹天气扩展将天气预报添加进攻略中，但没有成功利用高德地图扩展生成每天的景点路线图，大部分尝试中，都只显示了腾冲在地图上的位置。

编码则是通用Agent需要培养的第二项能力。AI编程为Agent解决复杂任务提供了一个通用的有效工具，无论是ppt、网页、图表的生成，还是小游戏的创作，都需要依赖编码能力来执行。有消息显示，OpenAI正在讨论用30亿美元收购AI编程初创公司Windsurf，借此来提升AI的编码能力。

第三个也是最底层的，是大模型的任务理解能力。只有具备更强的任务理解能力，通用Agent才能让更多人依赖其去完成任务，并保证任务的完成水准。这也是大厂在多模态能力之外，着力在提升的另外一项大模型能力。OpenAI在推出o3和o4-mini时，就强调这是一个知道去上网查资料、执行Python代码的「大脑」。

从目前的布局来看，OpenAI期待这个「大脑」在未来能够精准调度Operator和Deep Research等职业身份不同的Agent，前者是操控浏览器的司机，后者则是负责做研究的学者。未来可能还会有擅长编程的程序员，擅长讲故事的作家等Agent。

字节的扣子空间、百度的逻辑是像开发API一样开发Agent，需要有扣子、秒搭等Agent或工作流的搭建平台提供支持。而OpenAI的路径是按照职业去培养Agent。这是API逻辑之外的另一种更加拟人化的Agent生态培养模式。两个模式都是为了调用Agent生态，去完成不同的任务。

在OpenAI给到投资者的预期中，AI Agent及其他新产品合计销售额将在2025年末超越ChatGPT，达到30亿美元，到2029年Agent业务将为其贡献290亿美元的收入。这是一个非常乐观的预期。国内的通用Agent们也有可能从Agent体验升级中，奠定面向C端用户的收费模式。

实现这一预期的前提是，通用Agent们能够将多模态能力与Agent的执行能力结合起来，成为未来的底层入口。

（举报）