全球首个历史基准！普林复旦打造AI历史助手，AI破圈人文学科

历史是关于时间中的人的科学。——马克·布洛赫

人工智能已在诸多自然科学领域成为有力的研究助手，然而面对承载着文化意涵与历史记忆的人文学科，却仍旧表现得捉襟见肘。

究其原因，AI当前最缺乏的并非工具性能力，而是对人类智慧与文化的理解能力——这正是人文学科探究的核心。

在众多人文学科中，历史学因其海量的数据规模、多元的史料类型以及复杂的跨文化、跨时空特性，成为检验AI深度认知能力的理想试验场。

因此，AI不仅需要强大的识记能力，更需要深刻理解、精准判断与严谨推理的能力，才能够处理纷繁复杂的文献材料。

为此，普林斯顿大学AI实验室与复旦大学历史学系联合打造了HistBench与HistAgent，拉开了历史研究的AI时代的序幕。

论文地址：http://arxiv.org/abs/2505.20246

代码链接: https://github.com/CharlesQ9/HistAgent

HistBench作为全球首个历史领域评测基准，涵盖414道历史学者撰写的研究问题，横跨29种古今语言，覆盖全球多文明的历史演化脉络。

测试显示，主流大模型HistBench上准确率不足20%，暴露了通用AI在历史领域的认知短板。

而专为历史研究打造的HistAgent，集成文献检索、OCR识别、多语言翻译、档案检索与图像解译等核心工具，首次实现AI智能体在历史研究领域的深度定制与优化，在HistBench测试中准确率远超现有模型，并在GAIA通用基准斩获60%成绩，充分证明专业定制与通用能力可兼得！

HistBench：AI与历史的极限挑战

HistBench数据集共收录414道高质量历史问题，最初面向全球征集数千道题目，经由三轮筛选流程层层遴选而来：首先是初筛与标准化；其次由大模型初步预判以剔除低难度问题；最后由历史学专家进行复核校正，确保问题具备足够的研究价值与挑战强度。

参与出题与审核的专家层级涵盖面广，从历史学本科生、研究型硕博生，到海内外高校青年教师和资深教授，构成了一支多维度、跨年龄段的知识共同体，使题目既有理论深度，也具实践张力。

与传统知识问答不同，HistBench 强调方法论挑战与推理深度，特别注重AI在处理史料中的表现，如破损手稿、残缺碑铭、古地图、模糊音频等复杂材料。

长期以来，AI 评测体系主要由理工科主导，人文学科缺席，评估内容缺乏语言、模态与领域的多样性，也缺乏针对史学特点的精细化设计。

HistBench 正是在这一背景下诞生，旨在填补这一空白，推动AI在人文领域的系统性测试与能力突破。

全面覆盖历史研究的广度与深度

多语言覆盖：打破英语中心主义，覆盖29种语言，体现人文学科全球视野。

多模态史料：涵盖手稿、图像、音视频、历史文物等多种史料，真实模拟历史研究情境。

精细分级：问题从基础史料读取到跨学科深度分析均清晰分层，让模型表现一目了然。

HistBench覆盖20多个历史区域、36个子领域。这些子领域包括但不限于：

古典时代研究，涵盖古希腊、古罗马、中原汉唐、印度吠陀、两河与尼罗河流域等多个文明轴心区域的语言学、历史学与哲学文献传统

史学史与史学理论，历史学科的发展演变、范式更替与方法论革新；

全球史，包括人口迁徙、跨洋贸易、知识传播等；

传统史学研究，政治史、经济史和思想史，包括改革与革命、产业发展和观念流变等；

新文化史，包括性别史、城市史、日常生活史和物质文化研究等；

艺术史，包括图像史、雕塑史、电影史和音乐史等；

环境史，包括环保运动、生态思想和能源与资源管理等；

科学技术与医学史，包括早期科学机构、东西方科技交流、生物学、天文学、疫病史、卫生建制、医疗社会史等；

交叉学科：考古学、文学史、哲学史、新闻史、翻译史和历史地理学。

难度分层

HistBench精心设计三类难度等级，模拟真实历史研究挑战：

Level 1（基础）：166题，原则上由历史背景助理设计，聚焦基本信息检索和提取。

Level 2（进阶）：172题，原则上由研究生撰写，要求在材料处理或逻辑推理上构成一定难度。

Level 3（挑战）：76题，原则上由资深学者设计，涉及小/死语言语言读取、多模态史料处理和跨学科分析。

HistAgent：AI历史研究助手

在历史学研究中，提出问题只是一个开始，真正重要的是如何处理材料并找到答案。

为此，团队研发了专为历史学研究服务的智能系统——HistAgent，它不是通用型AI的「人文拓展版」，而是从底层结构就面向史学研究进行功能搭建与优化的专业助手，从任务分解到工具集成，完全嵌入历史学者的工作流程。

HistAgent能够检索文献和史料，处理手稿、图像和地图等多模态材料，并结合历史知识辅助推理，帮助研究者梳理线索、整合信息、形成学术判断。

与GPT-4o、DeepSeek、Grok等通用大模型相比，HistAgent针对性更强。主流模型虽擅长公式和代码，却难以处理古希腊碑文、敦煌残卷、满文档案等历史材料，更缺乏严谨的学术推理能力。

HistAgent 的设计理念正是要填充AI在历史研究领域的空白，是一套包含多个子模块的多智能体协作系统，能够模拟历史研究的流程，将复杂任务拆解为不同的子任务，并根据每个子任务的需求调用最合适的工具，完成多模态、多语言和跨学科的指令。

通过这样的设计架构，HistAgent不仅能检索学术信息和处理历史材料，更能深入问题、形成推理、得出答案，成为历史研究者得力的助手。

HistAgent的「多智能体协作系统」

HistAgent的架构由以下几个核心模块组成：

文本搜索模块：支持多步网页搜索与页面解析，可检索学术网站和历史资料，提供权威背景信息和证据支持。

OCR模块：支持识别手稿、碑铭和古地图等文档。其中针对字母文字材料，专门引入了 Transkribus 平台——历史学界公认的一流手稿识别服务平台，能显著提高识别的准确率与排版转录质量。

翻译模块：支持多种语言互译，包括古典语言与小众语言。HistAgent不仅能翻译文本的表面意思，还能结合语境优化译文，提供流畅准确的片段。

图像分析模块：支持图片反向搜索、文物识别等任务。能够为历史图像材料寻找出处、补充背景、解析含义。

音频处理模块：支持处理历史演讲和访谈记录等音频材料。

视频分析模块：支持处理各类影像视频材料，能从中抽帧、分析场景、辅助理解历史事件。

文献搜索模块：支持解析 PDF、DOCX、XLSX、PPTX 等多种格式，便于处理研究资料。

文件处理模块：支持PDF、DOCX、XLSX、PPTX等文档解析，方便处理多格式的历史材料和研究文件。

这一切的背后，离不开一个中央调度模块（Manager Agent）的有机协调：

HistAgent会根据任务需求，智能判断调用子模块的范围和顺序、并整合多模态结果，从而最终输出符合历史学科规范的完整回答。

当需要OCR时，就会调用OCR Agent，当需要查论文时，就会调用文献搜索Agent，当需要多语言处理时，就会调用翻译Agent。

正如一场舞台剧，多个「演员」各司其职，共同完成复杂的历史研究任务。

HistAgent如何破解「历史迷宫」？

为了全面评估 HistAgent 的能力，团队设计了一轮系统测试，选用了三个评测集，涵盖不同类型的任务：HistBench、HLE 历史子集，以及GAIA通用任务。这三个评测集共同构成了对历史推理能力和通用任务适应能力的全方位检验。

实验结果显示，HistAgent在各项测试中均表现出显著优势。

在HistBench上，GPT-4o（带网络搜索）的准确率为18.60%，而HistAgent pass@2达到了36.47%，提升幅度接近一倍。

在HLE历史子集中，HistAgent的pass@1为28.57%，远高于GPT-4o（8.9%）和ODR-smolagents（17.9%）；pass@3更是达到42.86%

即便在GAIA这类综合性多模态任务上，HistAgent也保持了60.00%的pass@1成绩，超过baseline模型ODR-smolagents 5个百分点，展现出良好的通用性。

这些结果表明，HistAgent能够有效处理复杂的历史任务，同时具备一定的通用任务能力，验证了其作为多模态历史推理助手的适用性和优势。

AI与历史的对话，才刚刚开始

HistBench和HistAgent的发布，是AI历史推理领域的重要突破。

它们不仅为AI处理复杂历史问题提供了系统性基准与工具框架，也为评估和提升AI在人文学科中的能力开辟了新路径。

HistBench与HistAgent的发布只是起点，团队计划将继续扩展题库，吸纳更多来自全球史学专家的真实研究问题，并根据用户反馈和研究需求，不断升级HistAgent的各模块能力。

研究人员的目标是打造一个始终与史学前沿并行进化的AI助手，让它真正成为历史学家可信赖的研究伙伴。

AI是否能真正成为历史学家？

至少在今天，还远未达到这种程度。但通过HistBench的测试与HistAgent的尝试，至少拥有了一把探索历史的新钥匙，不仅是AI技术的发展，更是一次AI与人文学科共塑认知边界的尝试。

这只是一个开始，AI与历史的故事，仍在继续。

HistBench和HistAgent的意义绝不仅是提供一个正确的回答本身，而是回应了科技与人文的关系这一宏大而深远的议题，勾勒出了AI如何走入和参与人类的文明记忆构建的无限可能。

参考资料：

http://arxiv.org/abs/2505.20246

文章来自公众号“新智元”

NovaByteZ

AI要理解历史，这真是不容易！

这太有意思，AI要理解历史，感觉世界都要变了！

这事儿，我有点担心，历史是危险的，AI搞不好会让我们灭亡！

这有点荒谬，历史是情感的，机器不懂情感怎么能理解？

太棒了！AI能理解历史，这说明我们人类的智慧被超越了！

登录账号

全球首个历史基准！普林复旦打造AI历史助手，AI破圈人文学科

评论 (11)

NovaByteZ

NovaByteZ

NovaByteZ

NovaByteZ

NovaByteZ

PixelDreamer

Echo777

ZeroMoon_1999

SynthWaveKid

NovaByteZ

文章章节

推荐文章

Qwen又立功，全球最快开源模型诞生，超2000 tokens/秒

首发 2199 → 1606.6 元：小米米家扫拖机器人 5C 再降价，超远机械臂外扩清洁

用国产GPU训练的国产大模型来了！能耗暴降97.7%

刚刚，英伟达祭出下一代GPU！狂飙百万token巨兽，投1亿爆赚50亿

英伟达：Rubin CPX 登场！要和博通 ASIC“掰掰手腕”

速抢（2核2G）77元/年香港免备案服务器

专为AI打造的搜索引擎崛起，信息获取范式将迎来新一轮转变

虚拟座谈：软件工程师与团队领导者如何借助 AI 实现卓越

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

36氪

登录账号

全球首个历史基准！普林复旦打造AI历史助手，AI破圈人文学科

评论 (11)

文章章节

推荐文章

Qwen又立功，全球最快开源模型诞生，超2000 tokens/秒

首发 2199 → 1606.6 元：小米米家扫拖机器人 5C 再降价，超远机械臂外扩清洁

用国产GPU训练的国产大模型来了！能耗暴降97.7%

刚刚，英伟达祭出下一代GPU！狂飙百万token巨兽，投1亿爆赚50亿

英伟达：Rubin CPX 登场！要和博通 ASIC“掰掰手腕”

速抢（2核2G）77元/年香港免备案服务器

专为AI打造的搜索引擎崛起，信息获取范式将迎来新一轮转变

虚拟座谈：软件工程师与团队领导者如何借助 AI 实现卓越

热门标签

热门作者

为您推荐