a16z实测 AI 办公工具：谁是能帮你干活的队友

a16z 的 AI 办公工具测评，他们测了市面上最火的 AI native办公套件——从做 PPT、整理 Excel、写邮件到做会议纪要，统统都测了一下。

整理出的测试结果表格比较一目了然，懒得看全文的可以直接刷到表格图。纯粹算是给大家个参考。分割线后是正文。

btw，本篇和上篇的排版都来自于大聪明在飞书文档的“公众号排版器”插件，拱手感恩(´ᴗ`ʃƪ)。

AI不再仅仅是一个功能——它正成为一个团队成员！从撰写电子邮件到设计幻灯片、研究市场或构建财务模型，一种新Agentic tools正在出现，类似于 AI-native的办公套件。
但这里有一个挑战：截至目前，市场仍然是碎片化的，每周都有新工具出现。Anthropic 本周刚刚为 Claude 推出了“creating and editing file”功能！消费者不禁在想：我到底应该使用哪个工具，以及在什么场景下可以开始将agentic tools嵌入我的日常工作中？

为了了解这些工具在实践中的表现，我们对市场进行了映射，并在各种日常办公任务中对 AI-native工具进行了基准测试——制作电子表格、记录会议笔记和撰写电子邮件。我们的benchmarks发现了一些通用工具的出色表现，一些突出的垂直应用，以及关于市场发展的一些线索。

Agentic Productivity的两条路径：通才与专才

市场正在分化为两种agentic productivity。一方面是“全能型”通用工具，旨在处理跨应用和任务的任何内容。另一方面是垂直专家，旨在深入单一工作流程，如电子邮件、幻灯片或电子表格。两者都在快速发展——而且都有权衡。

Generalists – Horizontal tools

通才工具旨在提供灵活性。它们可以在不同的上下文、应用和任务之间移动，但往往以顺滑度和精确度为代价。在这一阵营中，有三种格式脱颖而出：

1.General Assistants: 通常是多模态、基于prompt的通用网络工具，有时具备记忆功能，以执行多种类型的任务。

Examples: Operator, Manus, Genspark.

2.Agentic Browsers: 在网络上进行自主浏览和任务执行。一些options，如 Comet，增加了更复杂的功能，例如在被关键词触发时重放工作流程的快捷方式。

Examples: Dia, Perplexity Comet, Browserbase.

3.Browser Extensions: 轻量级助手，叠加在现有工作流程和界面之上。

Examples: MaxAI, Merlin, Monica.

Specialists – Vertical Tools
专业工具旨在提供深度和可靠性。这些工具专注于结构化工作流程，而不是试图做所有事情，在这些工作流程中，信任、精致和user control至关重要。今天的垂直领域由涵盖核心专业工作流程的工具支撑。

1.Email Assistants: 能够起草结构化回复、管理收件箱分类和处理日程安排任务的助手。

Examples: Fyxer, Serif, Jace.

2.Presentation Tools: 利用AI，强调视觉设计、速度和可编辑性来创建幻灯片。

Examples: Gamma, Chronicle, Beautiful.ai.

3.Note & Document Tools: 用于结构化写作、笔记记录、知识捕捉和协作编辑的工具。

Examples: Mem, Notion, Granola.

4.Spreadsheet Tools: 处理数据提取、格式化和分析的应用程序。它们可以在研究或工作流程的方向上扩展。

Examples: Paradigm, Shortcut, Meridian, Julius.

Benchmark: Do These Products Actually Work?

为了查看这些工具在实际任务中的表现，我们对它们进行了基准测试，以衡量它们的成功之处和不足之处。

这些prompts涵盖六个核心维度：总结、沟通、文件理解、研究、规划和执行。

Use Case 1: PowerPoint
Prompt:Design a visual-heavy, 7-slide deck about Gen Z internet behavior trends in 2025.

Gamma 作为一个垂直化的 AI 工具，内置模板和设计功能，使得演示文稿可以在两分钟内生成。作为一个完整的演示编辑器，它提供了广泛的编辑控制选项 – 用户可以调整布局、改变视觉效果和字体、添加图表，并提示 AI 提供文本或设计建议。

Genspark 和 Manus 作为通用助手，倾向于生成内容更丰富的演示文稿，通常更接近研究报告。它们的输出生成时间较长，但往往表现出更深入的分析和更强的提示对齐。ChatGPT Agent 生成的演示文稿则更简单，类似于基于文本的报告，设计能力较弱且生成时间更长。

Anthropic 本周刚刚在 Claude 中推出了文件创建和编辑功能。在演示文稿生成任务中，它是我们测试过的最快的通用Agent，尽管设计仍需改进。

总体而言，如果您需要用于外部的演示文稿，视觉质量和生成后控制至关重要，那么 Gamma 是最佳选择。如果您正在寻找一个内容丰富的演示文稿以激发研究或分析，那么 Genspark 是更好的选择。

Use Case 2: Spreadsheet
Prompt:Extract all the data from this PDF and calculate operating margin.
提示：从此 PDF 中提取所有数据并计算营业利润率。

电子表格是一个复杂的用例。它们的复杂性在复杂的财务模型等输出中尤为明显，在这些情况下，格式和准确性都至关重要。不过，AI 电子表格工具开始在更基本和中级的任务中显现出效果，例如从 PDF 中提取数据和进行基本的财务计算。

在这个测试中，我们上传了一份 S-1 文件的页面，并要求工具计算公司的营业利润率。在通用Agent中，Manus 表现最佳：它将数据提取到结构化的电子表格格式中，并迅速返回准确的结果。Claude 在电子表格任务中也是最快的，并给出了正确的答案，但它的输出有限——提供的分析很少，并未将完整的数据集提取到表格中。

Shortcut 作为一个专注于 Excel 的垂直代理，在原生 Excel 环境中提供了更全面的分析，尽管运行时间较长，并且仅提取与计算相关的数据，而不是完整的数据集。

Use Case 3: Email
Prompt:email to schedule a dinner on next Thursday

Fyxer、Serif 和 Jace 作为电子邮件的垂直助手。每个助手都能生成合格的草稿，并在邮件线程中保持上下文。Serif 在定制化方面表现突出：它支持操作手册、电子邮件标签和偏好设置，为用户提供了一种编码最佳实践并在类似场景中应用一致工作流程的方法。

他们的调度方法各不相同，但都能够执行一个简单的调度任务：

Serif 使异步协调成为可能。您可以在电子邮件中抄送Agent，以处理来回的日程安排并发送日历邀请。
Fyxer 生成一个类似 Calendly 的链接供他人预定时间。
Jace 采取更轻松的方式，生成事件但在发送之前等待用户批准。

相比之下，Comet 将通用助手功能引入电子邮件。它可以起草回复，按照提示安排会议，发送邀请，并搜索收件箱。但它缺乏内置的自定义功能，如操作手册、标签或偏好设置，因此与专用电子邮件助手相比，草稿感觉不够个性化。

Use Case 4: Research
Prompt:Summarize and compare the latest quarterly cloud revenue growth for Microsoft, Amazon, and Google in a table with sources, then analyze the drivers behind the results in a short report.

得益于 AI 工具，消费者现在可以在几秒钟内生成深入且基于研究的分析——这些工作以前可能需要数小时的努力和多年的经验。

我们测试的所有产品都能够提取正确的云收入增长数据并将其整理成表格。差异体现在细微之处和速度上，反映了每个产品的基础优化和限制。

Comet 和 Dia，这两款 AI 原生浏览器，是最快的。它们在 20 秒内返回结果，但与 Manus 相比，它们的输出分析较少且结构不够严谨，而 Manus 提供了更全面的表格和对数字背后驱动因素的更深入解释。

源质量也有所不同。Comet 和 ChatGPT Agent 因直接引用权威来源如财报和雅虎财经而脱颖而出，通常包括内联引用，使得验证准确性变得更容易。

总体而言，tradeoff是明确的：如果您优先考虑更深入的分析，并且对处理时间不太敏感，Manus 是最强的选择。如果您重视速度并希望快速获得一个不错的答案，Comet 更适合。

Use Case 5: Meeting Note-taking

会议期间记事本处于开启状态

会议记录是最自然的AI应用之一，它通过让用户专注于对话而不是打字来节省消费者的精力。此类工具通常以记事本格式运行，自动转录和结构化讨论，而 ChatGPT 的记录模式则提供了一种更轻量的替代方案。所有被评估的产品都支持通过关键字搜索进行检索，但它们在笔记质量、定制和协作方面的优势各不相同。

Mem 生成最详尽的记录，详细捕捉讨论和行动项，而 ChatGPT 的记录模式提供更高层次的摘要，易于浏览但不够完整。Granola 通过可定制的模板区分开来，这些模板可以适应不同的会议类型，使用户对结构和输出有更多的控制。

Granola、Mem 和 Notion 都允许用户提前准备笔记，在会议期间添加指导，并实时跟踪转录。Notion 在协作方面表现突出：任务可以直接在笔记中分配，同步到 Notion 日历，并与更广泛的团队工作流程对齐。

总体而言，如果您想要全面的capture，Mem 是最佳选择；对于结构和自定义，Granola 表现出色；而在团队协调方面，Notion 是最强的选择。

Observations from Testing

通过对这些用例进行测试，看到了几个模式：

1.差异化的模式已经很明显。垂直产品通过设计和工作流程的精细化脱颖而出——专注于工作“表面”或画布，并深度嵌入专业工作流程。这使得它们在外部使用场景中尤其强大，因为这些场景中精细化和展示至关重要。相比之下，横向产品强调广度：它们通过叠加相关任务来竞争成为“全能型”入口。例如，Manus 已经涵盖了研究、演示和电子表格，定位为工作开始的单一地点。
2.竞争正在加剧，尤其是在横向产品领域，包括来自模型公司的竞争。通用助手和智能浏览器正在争夺工作场景用户的入口。考虑到速度和准确性的重要性，靠近模型开发的公司可能更有机会实现交付。主要research lab仍在加入这场竞争：Anthropic 最近为 Claude 推出了一个browser copilot，我们预计 OpenAI 和其他参与者会有更多尝试。
3.融合即将到来。垂直和通用Agent之间的界限开始模糊，垂直产品试图“跳入”新类别，而通用平台则加倍专注于流行的use case。如果你正在构建垂直产品，确保跟上并基于最新的模型原语进行构建。如果你正在构建通用产品，你需要足够深入的workflow和迭代循环，以至于垂直参与者无法切割你的use case。