力压群雄：谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型，可精确引用

IT之家 4 月 22 日消息，最新报告指出，谷歌旗下的 Gemini 2.5 Pro 模型能准确解析 PDF 文档的视觉结构，实现精准的视觉引用功能，成为首款能完全理解 PDF 布局的 AI 模型。

IT之家注：谷歌于 3 月 25 日向付费用户和开发者发布 Gemini 2.5 Pro 实验模型，仅隔 4 天时间，谷歌便通过免费 Web 应用向全球用户开放。

Gemini 2.5 Pro 不仅能提取 PDF 文档中的文本内容，还能理解其视觉布局，包括图表、表格和整体排版。

谷歌在开发者文档中表示，该模型具备“原生视觉”（Native Vision）能力，支持处理最多 3000 个 PDF 文件（每个文件上限为 1000 页或 50MB），同时拥有 100 万 token 的超大上下文窗口，未来计划扩展至 200 万 token。

AI 初创公司 Matrisk 的联合创始人 Sergey Filimonov 特别赞扬了 Gemini 2.5 Pro 在 PDF 视觉引用上的表现。

Filimonov 指出，传统的文本分割方法会切断用户与原文的视觉联系，导致无法直观验证信息的来源。甚至在 ChatGPT 中，点击引用也只能下载 PDF，迫使用户自行判断模型是否“幻觉”，这严重损害了用户信任。

过去，引用文档内容往往只能高亮大段无关文本，精准度极低。Gemini 2.5 彻底改变这一现状，它不仅能将提取的文本片段映射回原始 PDF 的确切位置，还能以前所未有的精度锁定特定句子、表格单元甚至图像。

这种技术突破为用户提供了直观的视觉反馈，例如在询问房屋费率变化时，系统能直接高亮文档中相关数据（如 15.4% 的费率变化），并标注来源依据。

这种清晰度和交互性是现有工具无法企及的。Gemini 2.5 不仅优化了现有流程，更开启了全新的文档交互模式。

相比之下，Gemini 2.5 以 0.804 的 IoU（交并比）精度大幅领先其他模型，如 OpenAI 的 GPT-4o（0.223）和 Claude 3.7 Sonnet（0.210），展现出惊人的空间理解能力。

提供商	模型	IOU	简评
Gemini	2.5 Pro	0.804	非常优秀
Gemini	2.5 Flash	0.614	有时表现不错
Gemini	2.0 Flash	0.395
OpenAI	gpt-4o	0.223
OpenAI	gpt-4.1	0.268
OpenAI	gpt-4.1-mini	0.253
Claude	3.7 Sonnet	0.210

Gemini 2.5 的潜力远不止于文本定位。它还能从 PDF 中提取结构化数据，同时明确标注每个数据的来源位置，解决下游决策中因数据来源不明而产生的信任障碍。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

登录账号

力压群雄：谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型，可精确引用

Gemini APP

ChatGPT APP

Claude APP

GPT-4

Comment (0)

Chapter

Recommended Articles

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

用户破8亿！GPT-5.1来了，表情包含量可自定义

发布即开放：百度猎户座葫芦里卖的什么药？

速抢（2核2G）77元/年香港免备案服务器

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

小鹏物理AI的尽头，是马斯克的现金流

Popular Tags

Popular Authors

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

登录账号

力压群雄：谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型，可精确引用

Gemini APP

ChatGPT APP

Claude APP

GPT-4

Comment (0)

Chapter

Recommended Articles

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

用户破8亿！GPT-5.1来了，表情包含量可自定义

发布即开放：百度猎户座葫芦里卖的什么药？

速抢（2核2G）77元/年香港免备案服务器

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

小鹏物理AI的尽头，是马斯克的现金流

Popular Tags

Popular Authors

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

为您推荐