Midjourney操作界面

多模态和Agent成为大厂AI的新赛点

4.8
0热度

声明:本文来自于微信公众号窄播,授权站长之家转载发布。这是《窄播Weekly》的第52期,本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景,多模态能力和代理执行成为两个焦点。大模型落地C端场景的核心,就是让大模型的能力越来越接近人。沿着这个主旋律,可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现,需要给

声明:本文来自于微信公众号窄播,授权站长之家转载发布。

这是《窄播Weekly》的第52期,本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景,多模态能力和代理执行成为两个焦点。

大模型落地C端场景的核心,就是让大模型的能力越来越接近人。沿着这个主旋律,可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现,需要给到大模型多模态能力;后者则需要依托于Agent产品生态的不断成熟。

多模态方面,字节、百度、谷歌、OpenAI都在近期推出了多模态能力更强的基础大模型产品,为相应的应用创新带来了可能。阿里旗下的AI to C产品夸克,就在本周上线了基于「通义推理及多模态大模型+后训练」实现的「拍照问夸克」功能。

代理执行层面,在Manus指出方向之后,类似的通用Agent产品也在近期纷纷上线。其中就包括了字节旗下的扣子空间、百度的心响App、360的纳米AI、前百度高管的Genspark等。这些产品都主打一站式完成用户通过自然语言布置的复杂任务,并且都具有编写代码和连接第三方数据、工具的能力。

相比国内,海外巨头会更倾向于打造服务于单一场景的Agent。Notion推出了AI驱动的电子邮件服务Notion Mail,帮助用户组织电子邮件、起草回复、搜索消息等。OpenAI此前推出的Operator和Deep Research也分别聚焦在操作浏览器和研究领域。X AI则增加了Grok Studio,用来协助用户生成文档、代码、报告和小游戏。

从目前能够体验到的产品来看,多模态能力和代理执行能力的提升,确实为用户带来了更低门槛、更高效率的AI使用体验。套用微软CEO纳德拉夸赞自家Cop ilot体验的话,具备执行能力的通用Agent就是在为用户搭建一个脚手架,并在上面放好趁手的工具,助力用户完成日常工作、学习、生活相关的任务。

当这个产品成熟时,人们会发觉自己的工作、学习、生活的体验可能已经被其改变。但改变不是一个短期过程。这些还处于早期探索阶段的产品,在细节上差强人意,需要一段时间去打磨,从用户意图理解、第三方工具调用和相应内容的生成等方面,全方位提升产品体验。

从现阶段看,模型能力的强弱依然非常重要。大模型能力的提升和成本的降低,确实刺激了AI应用的爆发,也再次让人们看到了百度创始人李彦宏口中「应用统治未来世界」的可能。

但是,大模型技术还在持续突破,目前我们看到的Agent的不足之处,很多需要依靠模型能力的提升来完善。甚至未来有可能会实现「模型即应用」,画图有画图的模型,分析图表有分析图表的模型。现在看,OpenAI有向这个方向前进的倾向。

Agent的终局到底是什么,现在看来尚无定论。

多模态正在渗透进现实场景

从近期的大模型发布来看,多模态是重要的能力培养方向。字节旗下火山引擎发布的豆包1.5深度思考模型,能够结合视觉理解能力完成看图分析地貌、生成项目流程图等工作。李彦宏在介绍文心4.5Turbo时,通过识别马拉多纳「上帝之手」的照片和水槽实验视频中的不同颜色物体,展示了图像和视频的理解能力。

此外,OpenAI最新发布的o3和o4-mini也都具备看图表和自己画图的多模态理解能力。OpenAI称其首次实现了「用图像思考」。谷歌发布的首个混合推理模型Gemini2.5Flash能够比较精准地分析股票走势图,并能根据给到的素材图生成游戏场景设计图。

不断提升多模态推理能力的同时,各个厂商都在为这种能力寻找第一块试验田。夸克在推出AI超级框概念之后,最新上线了拍照问夸克功能,就是在将大模型的多模态能力注入到AI超级框中,让用户不但能够通过文字完成与AI超级框的交互,还能实现图文并茂的沟通。

在实际的使用过程中,我们发现拍照问夸克功能基本可以满足「拍照搜索」的体验,比如拍摄一个梅瓶的陈列,夸克可以回答出梅瓶的由来,以及它在宋朝会被用来盛酒。用户还可以拍摄照片,让夸克根据照片生成文案,或者识别食物的卡路里、辨别景点并给到游玩攻略。

通过加入图像,夸克可以让用户给AI下达更加精准的任务,然后调用夸克积累的Agent和原子功能,更好地完成任务。

图片

这其实是在让摄像头成为用户赋予AI的眼睛,未来可能不止依靠拍照,还会有直接通过摄像头进行的实时交互。这也是谷歌试图实现的多模态交互体验。

在谷歌多模态搜索产品负责人Rajan Patel的畅想中,多模态能力的融入,会让搜索变得毫不费力。用户在谷歌可以打字、可以说话、可以拍照,可以对着摄像头说自己需要什么,而谷歌将利用大模型、产品能力,帮助用户快速连接到相关且正确的信息。

也因此,多模态能力的提升,会影响到AI眼镜的进展。一位AI硬件创业者告诉《窄播》,现在之所以没有选择AI眼镜的方向,是因为多模态大模型还不成熟,他无法根据使用场景去进行产品定义。但是面向未来,类似用户与拍照问夸克的交互可能会从手机迁移到眼镜。

代理执行需要三个能力

多模态提升的是交流效率,Agent的重心则在于执行。

在2024年下半年,具备任务执行能力和系统操控能力的Agent就已经成为一门显学。但当时有两个问题尚待解决:一个是Agent产品的形态应该是什么样?另一个则是Agent与第三方数据、工具之间应该如何实现连接?

Manus的出现为大家指出了前进方向——通过对话框+工作区的方式,呈现Agent的工作场景,然后基于大模型能力理解、拆分用户任务意图,调用不同工具模块,协同完成任务。虽然会被人称作「缝合怪」,但是Manus确实让面向C端用户的通用Agent产品的雏形显现出来了。

近期发布的扣子空间、心响App、纳米AI的Agent能力以及Genspark基本都遵循了这个雏形模版。扣子空间分为三个部分,左边部分是任务目录,中间部分是任务交互区,右边可以展开一个Agent的工作空间。同时,扣子空间还会支持添加扩展,以及选择探索和规划两种思考深度不同的模式。

图片

从使用上看,扣子空间更擅长完成文字梳理工作。但在将梳理出的文字转化为网页时,扣子空间的效果会打折扣。我们尝试让扣子空间生成了一份腾冲旅游攻略、一个展示秦灭六国过程的网页和一次AI新闻汇总。文字版的腾冲旅游攻略要更详细,转化为网页后,信息量会被稀释,美食的配图也会出现问题。后两个任务也不太令人满意。

百度的心响App的特殊之处是选择了在移动端上线,相对可以完成的任务就会更轻量化和生活化,其推荐任务中不仅有旅游攻略、数据分析等通用Agent产品常见的任务,还会有数学解题、AI相亲、例行任务等类似聊天机器人的功能。整体感觉,心响App是文小言的Agent进化版。

我们认为,目前想要优化具体的任务体验,通用Agent们需要持续培养三个关键能力。

第一个是,能否连接足够数量的第三方数据和工具。MCP(Model Context Protocol,支持大模型与外部数据、工具集成的开源协议)和A2A(Agent2Agent,智能体协作协议)的推出,不但让第三方数据、工具有了顺畅接入通用Agent的统一接口,还赋予了Agent与Agent之间的交互、协作能力。

目前,国内厂商基本都接受了这种连接解决方案,接下来需要解决的是,如何扩充有效的工具箱。

纳米AI主打的卖点是「MCP万能工具箱」,号称接入了近百个优质第三方工具。扣子空间的扩展相对要少很多,而且有些只具备简单功能。以腾冲攻略为例,我可以用扣子空间里的墨迹天气扩展将天气预报添加进攻略中,但没有成功利用高德地图扩展生成每天的景点路线图,大部分尝试中,都只显示了腾冲在地图上的位置。

图片

编码则是通用Agent需要培养的第二项能力。AI编程为Agent解决复杂任务提供了一个通用的有效工具,无论是ppt、网页、图表的生成,还是小游戏的创作,都需要依赖编码能力来执行。有消息显示,OpenAI正在讨论用30亿美元收购AI编程初创公司Windsurf,借此来提升AI的编码能力。

第三个也是最底层的,是大模型的任务理解能力。只有具备更强的任务理解能力,通用Agent才能让更多人依赖其去完成任务,并保证任务的完成水准。这也是大厂在多模态能力之外,着力在提升的另外一项大模型能力。OpenAI在推出o3和o4-mini时,就强调这是一个知道去上网查资料、执行Python代码的「大脑」。

从目前的布局来看,OpenAI期待这个「大脑」在未来能够精准调度Operator和Deep Research等职业身份不同的Agent,前者是操控浏览器的司机,后者则是负责做研究的学者。未来可能还会有擅长编程的程序员,擅长讲故事的作家等Agent。

字节的扣子空间、百度的逻辑是像开发API一样开发Agent,需要有扣子、秒搭等Agent或工作流的搭建平台提供支持。而OpenAI的路径是按照职业去培养Agent。这是API逻辑之外的另一种更加拟人化的Agent生态培养模式。两个模式都是为了调用Agent生态,去完成不同的任务。

在OpenAI给到投资者的预期中,AI Agent及其他新产品合计销售额将在2025年末超越ChatGPT,达到30亿美元,到2029年Agent业务将为其贡献290亿美元的收入。这是一个非常乐观的预期。国内的通用Agent们也有可能从Agent体验升级中,奠定面向C端用户的收费模式。

实现这一预期的前提是,通用Agent们能够将多模态能力与Agent的执行能力结合起来,成为未来的底层入口。

(举报)

点赞(0)

评论列表 共有 0 条评论

暂无评论
发表
评论
顶部