o3出圈玩法“看图猜位置”,豆包也安排上了!
而且不只是猜位置那么简单,玩法“更上了一层楼”,例如我们给出下面这张图:

醒目的东方明珠,一眼便知是上海。但现在的问题是:
你知道这是几几年吗?
对我们人类来说可能会有点难以判断,不过在豆包这里,现在可以精确回答:1999年左右。

这就是豆包APP最新的一个功能——升级了视觉推理,图片也能深度思考!
具体而言,现在豆包的深度思考过程不再只是文字的处理,对图片也能进行分析。
操作上也非常简单,只需开启深度思考模式,然后拍照或上传图片即可:

而且细看豆包APP分析的整个深度思考的过程,也是有点意思在身上的。
例如它先会以图搜图,大致判断一下图片位置是上海;然后再调用图片分析工具(包括放大、裁剪和旋转等等),根据图片中的具体细节内容,进一步分析确定年份的证据。
总而言之,是属于边思考边搜边巧用工具的那种。
那么接下来,一波实测,走起!
实测豆包的带图推理
AI打假AI、看图找茬都难不倒
这第一关,咱先来点好玩的——让AI识别AI。
左右两边的西红柿都非常逼真,仅凭肉眼实在难以区分。

而豆包一击即中,一番思索后得出了正确答案:右侧为AI生成。

展开其推理过程,才发现它是通过“放大细节”得出结论的。
尤其是右图左下角的西红柿暴露了身份,其蒂部呈现出不自然的卷曲和分叉blabla。

既然它“眼力”不错,咱们接着整个大的——请找出下图中熊猫里的足球。
人类 VS AI,计时开始……

很好,肉眼找了一圈又一圈,最后还是只能求助于AI。
豆包APP给的答案是酱婶儿的:

怕你还是找不到,所以在思考过程中特意“放大”了足球所在的区域。
注意看,这里同样涉及到豆包对图片分析工具的调用,整个过程如下:
- 初步识别→可疑区域锁定
- 放大区域→局部图案对比
- 空间定位→精准叙述

看来一些比较考眼力的小游戏,尤为适合请豆包APP这位外援。
还是个靠谱的生活搭子
此外,作为一款日常工具,平时看到任何不懂的东西也都可以随时丢给豆包APP。
例如网上冲浪时,看到有人分享一款小众乐器,这就第一时间问问豆包:

豆包老师直接开课,采用最直接的方法——相似图片检索,确认这是少数民族鄂温克族的口弦琴。

又或者遇到云南这样的“新奇物种大省”,反手也是一个求助的动作。

原来这是云贵一带的小苦瓜,学名翅果藤,可以素炒、凉拌或晒干泡茶。

对于这种可能豆包自己都少见的东西,它会结合图片检索+文字检索来双重保障信息准确。

这下好了,以后人人都有一个7x24小时响应的生活助手了。
而且它的本事可不止帮忙搞定生活琐事,用来提升工作效率一样拿得出手。
辅导作业、提高生产力也不在话下
这不,让无数父母越来越头疼的作业辅导,现在也能全权交给豆包APP了。
为了加大难度,这里我们直接上今年IMO(国际数学奥林匹克竞赛)的第一题:

看不懂不要紧,直接交给豆包——在经过明显时间更长的思考后,它通过一步步推理最终给出了正确答案。

有一说一,答案是否正确我等凡人也看不太懂,所以交给了ChatGPT这个第三方裁判,让它来对比一下豆包APP和网上公开的人类选手给出的正确答案是否一致。
ChatGPT经过分析后认为,虽然解答方法不一样,但二者的结论是一致的。


与此同时,豆包APP也能用于日常工作——比如将一份财报数据一键提取成表格。
话不多说,直接丢一份苹果公司财报试试:

逐一检查后,豆包有效hold住了数据准确性的考验,而且还支持横向全屏查看。

当识图准确性这个“拦路虎”搞定后,豆包APP能够发挥作用的空间也就更广泛了,包括但不限于:
- 拍摄PPT、会议纪要或白板笔记中的表格内容,快速转换为结构化数据;
- 提取合同截图或发票上的费用明细表;
- 提取商品报价表、库存表、销售明细表截图;
- ……

豆包的边想边搜,有够灵活
从上面种种的实测中,我们不难发现豆包的思考链所具备的一个亮点——边想边搜。
传统AI的思考过程,大多采用的是“先搜后想”模式,也就是先一次性抓取海量信息,然后基于已经搜到的这些信息进行推理,范围相对有限、灵活性不足。
而豆包APP的“边想边搜”更像是一个“动态推理+多轮搜索”的过程。
在这个模式下,AI会根据推理的需要,在深度思考的过程中多次调用搜索、图片分析等不同工具来获取和验证信息,从而提供更加全面、准确的结果。
这个完整的思考链条,会根据用户问题的具体情况,灵活地接入图片理解和信息搜索。
例如,在思考推理过程中,它既可能需要通过文字信息去检索和分析图片(文搜图),也可能需要根据图片内容去反向查找相关信息(图搜文、图搜图)。
为了更直观地展示这个过程,我们尝试用它来找一部记忆模糊的童年动画片:

而就是这样寥寥几句,豆包APP通过多轮关键词检索和图片分析,帮忙成功找到了《Super Why》这部童年经典。

图搜图就和开头展示的例子类似,在此不再过多赘述。
至于在思考过程中展现图搜文,下面根据某张技术截图反向查找原始论文出处的例子就淋漓尽致地展现了这种能力。

豆包APP通过3轮搜索+调用图片分析工具,一步步锁定了这是OpenAI发表的论文《Training language models to follow instructions with human feedback》。
而经过实际对比,这张图也的确是该论文中的Figure 1。

Okk,林林总总体验下来,豆包APP现在确实属于边思考边搜边巧用工具的“六边形战士”了。
一句话,以后遇到啥问题都能随手一拍或截图丢给它。

事实上,不止豆包APP,如今几乎整个行业都在朝视觉推理这个方向狂飙突进。
今年以来,以OpenAI为代表推出的o3、o4-mini等推理模型,几乎凭一己之力将图像纳入推理链,开启了多模态深度理解的新范式。
随后,视觉推理能力迅速成为衡量大模型综合实力的新技术门槛,在国内外掀起了新一轮竞速热潮。
细究起来,这背后其实有两大核心驱动力:一曰技术,二曰需求。
一方面,多模态技术的持续发展,为视觉推理提供了强有力的技术支撑。
由于主流大模型均采用Transformer架构,它具备天然的多模态融合能力,能够对文字、图像、音频等不同模态的信息进行统一编码和高效处理。
因此,带图推理在技术上实际并非遥不可及。
而且发展多模态目前已成为AI圈的共识之一,显而易见,作为多模态智能重要组成部分的视觉推理,也大概率将随之水涨船高,成为竞逐热点之一。
更不必提,视觉推理也确实存在真真切切的行业及用户需求。
从行业角度来看,视觉推理是落地多种应用场景的关键能力。
比如在工业制造领域,视觉推理可用于无序分拣、晶圆缺陷检测、电池极片3D轮廓测量等复杂场景;在医疗领域,视觉推理能够助力手术导航、病理图像分析等应用……如此种种不胜枚举。
而对普通用户来说,鉴于现实中图文混合的信息越来越多,人们越来越需要的不只是“识图”,而是真正理解图中的逻辑与内容。
就像我们在实测环节看到的那样,在图像问答、文档解析等多个场景中,具备视觉推理能力的模型已经可以像人类一样识别细节、分析关系、做出判断,极大提升了信息获取和处理的效率。
综上所述,可以说技术的成熟与需求的涌现,在此时此刻实现了高度契合,从而带动了视觉推理能力迅速升温,成为新阶段的核心看点之一。
当然,大道理归大道理。对我们普通用户来说,最直接的变化是:o3、o4-mini等需要氪金才能用的功能,如今已经能在豆包APP里低门槛、免费用上。
豆包这波,也算是真正把“带图推理”打下来了~
p.s. 豆包APP现已全量上线带图推理功能,不过需要更新至最新的9.5.0版本才能体验哦。
— 完 —
量子位 QbitAI
关注我们,第一时间获知前沿科技动态