“智能不够，知识来凑”——知识驱动的金融决策智能体

导读本次分享将从技术层面深入探讨#大模型与#知识图谱在金融领域所遭遇的挑战，以及潜在的解决方案，并对未来发展进行展望。

文章将围绕以下五个方面展开：

1. 背景与挑战

2. 解决思路

3. 金融场景应用

4. 未来方向

5. Q&A

分享嘉宾｜徐铖晋粤港澳大湾区数字经济研究院（简称 IDEA） AI研究科学家

数创弧光（科技）有限公司（简称DataArc）联合创始人&CTO

编辑整理｜张俊光

内容校对｜李瑶

出品社区｜DataFun

背景与挑战

在金融场景中，对于分析结果的准确性以及信息引用的真实性有着极高的标准。这一严苛要求的实现，本质上依赖于对结构化数据与非结构化数据的全面精准检索，以及基于深度语义理解的逻辑推理能力。

传统的检索增强生成（RAG）技术虽在通用领域展现出一定价值，但在金融场景中却暴露出显著局限性，难以应对金融数据特有的专业性、关联性与动态性要求。相比之下，知识图谱凭借其对金融实体及其复杂关系的精准描绘，通过支持多跳逻辑推理，能够为金融分析提供了更强劲的支撑。但知识图谱也并非十全十美，它存在着构建成本高的问题，而且其结构化的形式与大模型进行交互时并不十分友好。

这些难题，共同构成了大模型和知识图谱在金融领域应用时所面临的挑战。

1. 大模型在金融场景的核心矛盾

近年来，随着 AI 技术的蓬勃发展，全球 AI 市场规模持续扩张。有测算显示，到 2024 年，该市场规模已达到百亿美元级别。然而，在这一繁荣景象背后，金融领域却面临着一个亟待解决的矛盾。

#金融决策对可解释性和准确性有着极高的要求。每一项决策都关乎巨大的利益和风险，容不得半点马虎。但以大模型为代表的 AI 模型，本质上属于黑箱模型，其决策过程难以捉摸，缺乏清晰的解释逻辑。这种特性与金融决策的需求产生了明显的冲突。

不仅如此，欧盟和我国都出台了相关法案，明确要求 AI 在进行高风险决策时，必须提供清晰的决策依据。这一规定进一步凸显了金融领域对 AI 可解释性的迫切需求。

受上述限制的影响，目前金融大模型的应用场景主要集中在智能客服、智能营销、投顾，相当于工作场景的 Copilot。而在金融风控、欺诈检测、审计以及投资研究等较为严肃的场景中，大模型的落地应用仍困难重重。

造成这一局面的主要原因在于当前的技术瓶颈，大模型存在事实性错误和推理不可追溯的问题。即使像 DeepSeek 这样在金融领域应用较为友好的模型，在实际应用过程中，其推理模式反而比基础模型更容易产生幻觉。这无疑给大模型在金融领域的广泛应用敲响了警钟，也是我们在后续应用中必须认真考虑和解决的问题。

2. 传统 RAG 技术在金融场景的局限性

在实际应用过程中，很多人会想到采用检索增强 RAG 技术范式，这在一定程度上可以解决模型幻觉问题。然而，在金融场景中，若想真正依靠 RAG 直接解决这一难题，仍面临诸多挑战。

金融场景下的检索需求颇为特殊。一方面，需要准确理解用户模糊的查询意图，另一方面，要支持复杂关系的深度检索，同时还得具备较好的领域知识，以精准理解专用术语。在这几点上，RAG 技术暴露出了一些问题。

以常见的基于向量数据库的 RAG 为例，它往往过度依赖关键字匹配，或是向量的相似性检索。这种检索方式存在明显弊端，当用户意图模糊时，容易检索到相似却不相关的信息。而且，其检索结果多为孤立的片段，即便召回 TOP10 的信息，也难以在向量数据库中建模出这些片段之间的关联。

例如对企业进行信用评估，RAG 可能检索到一些财务数据，却可能忽视关联企业，尤其是与之有担保关系的关联企业的财务状况。这是传统 RAG 技术难以解决的问题。

另外，领域知识不足也是一大困扰。像“净资产收益率”和“总资产收益率”，从字符层面或向量层面看，这两个表述十分相近，但结合业务含义却截然不同。若单纯采用 embedding 检索或字符串匹配，很容易出现理解偏差，进而产生问题。

3. 金融知识图谱

金融知识图谱在大模型爆发之前备受关注，被认为能够在一定程度上对企业特征以及企业之间的关系进行建模。

知识图谱可以描绘出企业的画像，涵盖其属性特征和各类关系。比如，它能清晰呈现企业之间的行业上下游供应链路、股权链路等关系网络。借助这些关系链路，在风险控制或行业研究等场景中，能够开展更为深入的分析。通过知识图谱，我们可以更全面地了解企业在市场中的位置和角色，为金融决策提供有力支持，弥补传统方法在复杂关系分析上的不足。

4. 知识图谱在金融场景中的应用优势

通过与大模型+#RAG 进行简单对比，能够发现知识图谱具有独特优势。

在结构化和精准性方面，知识图谱通常表现更佳。RAG 依赖于检索的准确性，这就导致其可能出现幻觉问题。而知识图谱凭借自身的结构特点，能确保较高的精准度。

在复杂关系推理上，知识图谱也更胜一筹。它擅长进行多跳推理，能够清晰地梳理复杂的关系链路。相比之下，RAG 在进行深度检索时存在局限性，难以像知识图谱那样高效处理复杂关系。

另外，知识图谱在数据整合和一致性方面表现突出。它可以整合多元数据，将不同来源的信息有机融合。而向量数据库可能缺乏对多元数据库的精细化整合能力，往往是简单地将数据向量化压缩在一起。

知识图谱的推理过程透明度高，可解释性强，还能进行可视化处理。相比之下，RAG 只是通过参考文献提示，在用户体验观感上稍好一些，但无法像知识图谱那样直观地展示推理逻辑。

在可扩展性方面，知识图谱采用结构化查询语句的搜索方式，随着数据扩展，检索精度仍能保持良好水平。而向量数据库或打标签的数据库检索，随着数据不断增加，整体的检索效率和精度会出现明显下降。

解决思路

1. 知识图谱与大语言模型的结合

基于对 RAG 的局限性以及知识图谱优势的清晰认识，一个自然而然的解决思路便浮现出来：能否将知识图谱作为大模型的外部知识源与 RAG 相结合呢？

将知识图谱和大语言模型的特性进行比较，可以发现二者具有很强的互补性，相辅相成。

大语言模型的优势在于其强大的通用生成能力，以及对用户意图和查询的精准理解能力。它能够快速生成自然流畅的文本，满足用户多样化的表达需求。

而知识图谱在分析过程中具备更高的可解释性，其关系往往可以溯源，这使得分析结果更加可靠。在特定领域的垂域场景中，知识图谱所蕴含的领域知识更为专业、准确。例如，在合规性风险控制等注重专业性和可靠性的场景中，知识图谱能够发挥独特优势。

基于上述特性，将知识图谱与大语言模型相结合成为顺理成章的技术路径，最基础的融合方式是将知识图谱作为专属检索库。当用户提出问题时，根据用户意图从知识图谱中检索出相关的三元组，然后将这些三元组作为大模型指令的上下文，一同输入给大语言模型。这样，大语言模型就可以依据知识图谱中的知识三元组来回答用户的问题，从而提高回答的可靠性。

此外，知识图谱在深度关联分析方面表现出色。比如，要判断两个公司的股权是否存在关联性，可以通过知识图谱从两个实体的股权关系向外扩展，查看它们是否有交织交叠之处，进而得出准确结论。这种深度分析能力与大语言模型的生成能力相结合，能够为金融决策提供更全面、更可靠的支持。

2. 使用 LLM 生成准确的 KG 查询语句

利用大语言模型可生成准确的知识图谱查询语句。

首先，大模型根据用户意图初步生成一个 SPARQL 查询语句，或 Cypher 查询语句等适用于向量数据库、图数据库的查询语句。

第一遍生成的查询语句往往无法直接执行。这是因为用户意图的表达可能存在模糊性，生成的语句与知识图谱中的实际实体和关系可能存在偏差。所以，需要借助语义相似度分析，依据知识图谱里的实体和关系，对查询语句中的实体关系进行修改完善。

经过修改后，得到可执行的查询语句，将其放入图数据库中执行。图数据库会根据查询语句检索相关信息，最后把这些检索回来的信息作为参考，提供给大语言模型，助力其更准确地回答用户的问题。

3. LLM 与 KG 不同的结合方式

我们将上述方法定义为大模型与知识图谱的松耦合方式。在这种方式下，大模型把用户的问题进行翻译，一次性将查询交给知识库，检索到相应结果后再用于回答用户问题。

另一种结合方式为紧耦合的方式。在这种方式中，大模型不再仅仅被视作一个将用户问题翻译为 SPARQL 查询语句，或是最终生成回答的工具，而是将其看作一个智能体。知识图谱则成为这个智能体可以搜索探索的环境和空间。

大模型能够在知识图谱的各个信息节点进行判断，并向外延展搜索。例如，在分析公司 A 时，大模型可以依据公司 A 的关键属性和关系，及其相邻实体，进行迭代式搜索。通过这种方式，最终能够搜索到更全面、更深入的信息，为金融决策提供更强大的支持。

4. 思维图谱—Think on Graph

早在 2023 年，我们就提出了“思维图谱”这一范式及相关技术。以下通过一个具体例子，帮助大家更好地理解。

当面临“分析恒大暴雷对中国影视市场有哪些公司会产生影响”这样的问题时，由于问题较为模糊，并非简单的一跳、两跳或三跳就能解决。若直接将其写成 SPARQL 查询语句，很难得到全面且准确的答案。

而借助思维图谱，我们可以从恒大集团出发，在图谱中逐步推理。先关联到相应的影视基地、影视公司，如恒大影视，再进一步延伸到下游的子公司等，最终确定所有可能受到影响的公司。

这种紧耦合的方式，通过在图谱中逐层逐步搜索，将相关信息汇聚起来，能够更全面、深入地分析问题。值得一提的是，这项技术已发表在国际顶尖的人工智能学术会议——ICLR 2024 上，展现了其在学术领域的前沿性和创新性。

5. 思维图谱 2.0—Think on Graph 2.0

在成功发表思维图谱 1.0 版本后，我们逐渐察觉到知识图谱存在的局限性。知识图谱存储的知识受限于构建时预先定义的 schema，而且在构建过程中，会丢失原始文本中 schema 以外的文本信息。

为了克服这一问题，我们推出了思维图谱 2.0 版本。该版本将知识图谱与更多的文本信息相结合。具体操作是，先从大量信息中构建一个知识图谱，然后利用这个知识图谱反向引导大模型进行迭代式的 RAG 检索。在检索过程中，可以充分利用三元组信息、段落信息等，让大模型在推理时类似先生成思维导图的方式，进行更准确、全面的检索。

以恒大问题为例，通过构建思维图谱，能够找到恒大与住建部政策文件之间的关联、与评级公司之间的关联，以及这些政策文件和评级报告里的具体文本内容，从而实现更精准的分析。

6. 知识图谱驱动的大模型推理

我们的技术将知识图谱、大模型和 RAG 进行了有机结合。具体做法是，用实体去关联每一个文本，并为相应文本添加实体标签。如此一来，在大模型进行检索时，能够从用户查询语句中的关键实体出发，链接到知识图谱里的实体，还能在与这些实体相关的文档中进行定向检索。

这种方式一方面提高了检索效率，让检索方向更加明确；另一方面，也支持进行扩展和多轮检索，能够逐步扩大检索范围，使检索到的信息更加全面。

举个例子，当查询某个公司的供应商是否致力于循环利用时，我们可以先捕获该公司有哪些供应商，然后调取这些供应商的 ESG 报告等相关资料，进而回答相关问题。

值得一提的是，我们的这项工作入选了今年的 ICLR 2025，这充分证明了该技术在学术领域的前沿性和创新性，也为知识驱动的金融决策智能体的发展提供了有力的技术支撑。

7. 知识图谱对 RAG 增强的体现

我们可以将传统的以文本块为基础（chunk-based）的 RAG 与以知识图谱引导（KG-guided）的 RAG 进行对比。

以文本块为基础的 RAG 在检索层面较为依赖向量数据库，其搜索是基于文本块与问题向量相似度的计算。而知识图谱连接了实体和相关文本，能够实现更全面的信息搜索。它运用图推理、图检索的方式，通过实体关系找到更多上下文信息，在解决深度检索场景时具有明显优势。

相比之下，以文本块为基础的 RAG 往往表现欠佳。当知识库庞大时，它容易遗漏关键文本块。知识图谱以图的形式连接分散的知识，并融入图检索算法，通过多次跳跃遍历实体和实体的上下文，可实现更好的深度检索。在检索召回率方面，知识图谱结合了文本和知识三元组，既保障了检索深度，又能有更好表现。

以文本块为基础的 RAG 大多基于语义相似度寻找信息，这些信息相似但不一定相关。而知识图谱提供了实体间的关联，能更好地判断所找内容是否与问题真正相关，并非仅从语义或字符层面判断相似性。

此外，在引入多跳检索过程中，可通过问题不断检索新知识，并持续改写原问题，在迭代过程中提升检索准确性。知识图谱对 RAG 的这些增强作用，为金融决策智能体提供了更强大、更精准的信息检索能力。

8. 知识图谱构建难题

将知识图谱结合到 RAG 场景中，一个显著的问题便是建图成本。若采用人工检索的方式，效率极低且成本高昂；而完全依赖自动化构图方法，又会面临可靠性、准确性以及质量检测等方面的挑战。简而言之，人工建图速度慢，机器建图结果混乱。

针对这一问题，我们也进行了一些尝试。我们利用语言模型，如 Bert 类型的模型以及当下的大模型，相互配合开展实体的识别、关系的抽取，以及不同实体的消歧和融合，将不同来源的数据进行整合。我们的目标是实现一个完全自动化的流程。

在实践过程中，我们发现不同步骤的效果存在差异。例如，在实体抽取方面，只需进行少量样本学习（few-shot learning），就能达到较高的精度。在金融场景中，对于金融实体的命名体识别准确率可达 95%。在实体消歧和知识实体对齐方面，基于大模型和 embedding 方法，同样能将准确率提升到较高水平。

然而，关系抽取却是整个流程中难度较大的环节。我们尝试使用基础大模型和 Bert 类模型进行关系抽取，但很容易出现抽取遗漏或错误抽取的情况，整体的 F1 值仅能达到 0.7 左右的水平。由此可见，知识图谱构建过程中，关系抽取的难题亟待解决，这也是我们后续需要重点研究和突破的方向。

9. GraphRAG 技术

微软在去年 6 月份提出的 GraphRAG 技术，与我们之前提到的想法颇为一致，不过在检索层面采用的方法有所不同。

GraphRAG 完全依赖大模型进行自动化图谱构建。具体过程如下：首先人工定义要抽取的实体类型和关系类型，然后遍历每个文本文档中的段落，自动化地进行实体抽取和关系抽取，初步构建出图谱；接着，运用类似社区检索、聚类的方式，将不同实体划分到不同社区；之后，根据实体相关的文本以及实体的三元组，为实体撰写总结，对于每个社区，也会形成相应的总结。

在推理阶段，GraphRAG 会在相应的社区内进行信息召回，同时在相关实体对应的文档里再次召回信息，最后将所有信息进行汇总，形成回答。

这种方法在处理一些需要对大量实体进行对比、进行大范围总结的问题时，效果明显优于普通的 RAG。然而，GraphRAG 并未解决前面提到的构图难题。它整体建图效率极低，完全依赖大模型的 API 来建图，导致成本高昂，而且质量难以保证。

此外，每当出现新文本时，实体的上下文和社区包含的文章都会发生变化，这就需要重新生成实体的报告或社区的报告，重新构建图谱，维护成本巨大。由此可见，GraphRAG 技术虽有一定优势，但在实际应用中仍面临诸多挑战。

10. 语境图谱技术

基于前面的探讨，我们后续提出了语境图谱的概念。在语境图谱中，我们去掉了传统知识图谱里“关系”的概念。这主要出于两方面考虑：其一，一旦明确要抽取哪些关系，就必然会舍弃大量信息；其二，关系抽取难度极大，准确性难以保障。

我们认为，无需构建一个完整的知识图谱。不妨将图谱类比为书架，文本则是书。借助图谱，把有关联的知识文本关联起来，形成一个网络。如此一来，就能实现深度检索、全面检索，以及迭代式检索与推理的效果。

与 GraphRAG 相比，语境图谱技术更具扩展性。当有新的数据加入时，只需在原有图谱上增添一些边和节点，再将相应文本的位置对应到这些边和节点上即可。这种灵活的扩展方式，使得语境图谱能够更好地适应不断变化的数据环境，为金融决策智能体提供更强大的信息支撑。

这里举一个例子，传统知识图谱在表示信息时，通常以三元组的形式呈现，比如展示恒大集团与各个企业之间的关系。而在语境图谱中，我们摒弃了这种明确关系的定义方式。

我们认为，原始数据，无论是文档、表格还是图片等，都能更全面地反映两个实体之间的关系。无需用一个明确的词语去定义，只需将原始信息的上下文保留即可。

而且，当存在不同文本同时描述两个实体之间的关系时，我们只需把这些文本的索引放在这两个实体之间的边上。这样一来，语境图谱既保留了信息的完整性，又增强了信息之间的关联性，为金融决策智能体提供了更丰富、更灵活的信息基础，有助于实现更精准、更全面的决策分析。

具体过程为，首先进行实体抽取，这一步与 GraphRAG 类似，即从每个段落中抽取实体，不过，后续操作有所不同。我们没有进行关系抽取，而是统计实体与实体之间的共现记录，以此构建一张实体共现关系的图谱。

关于边，由于明确知道两个实体共同出现在某个段落中，我们便将该段落在向量数据库中的索引映射到图数据库中这两个实体之间的边上。实际上，这种方式的整体结构是图数据库与向量数据库的耦合。

这种语境图谱技术具有轻量化的特点。与 GraphRAG 不同，它无需进行改写和总结操作，而且只需保存索引，无需保存原文，因此存储效率极高。通过这种方式，能够更高效、更灵活地处理信息。

对比语境图谱技术与 GraphRAG，在整体构建速度方面，语境图谱有着显著提升，速度大概提升了200倍。而在资源构建的资源消耗上，我们的技术仅为 GraphRAG 的约 0.5%，优势十分明显。

在与用户交互、展示问答过程时，语境图谱技术也有独特之处，可以向用户展示检索了哪些实体相关的上下文，并以图的形式呈现内容中实体与实体之间的联系，以及实体相关的上下文。这种可视化的展示方式，能让用户更直观地理解信息之间的关联，增强用户对决策依据的信任，进一步提升金融决策智能体的实用性和用户体验。

为了验证语境图谱技术的有效性，我们在真实场景和学术场景中都进行了测试。

在学术场景方面，我们选用了一些公开的多跳检索问答数据集，与传统 RAG 方法进行了对比。结果显示，语境图谱技术的检索准确率提高了 10% 以上。

在真实场景方面，我们与某头部数字人公司开展了测试和 POC（概念验证）。通过人工检验发现，与当前大厂的知识库问答 API 相比，我们整体回答的良品率提升了约 15%。这一成果表明，语境图谱技术在实际应用中也能为用户提供更优质、更准确的回答，进一步体现了其在金融决策智能体中的应用价值。

11. 语境图谱 vs GraphRAG

在图谱构建方面，GraphRAG 需要预先构建一个完整的图谱，并且要人工预先定义明确的关系。这不仅耗时费力，还可能在定义关系时遗漏重要信息。语境图谱技术则更加灵活，可以按需构建图谱，并动态扩展，无需人工定义复杂关系，只需保留简单的共性关系，就能全面反映实体之间的联系。

在资源消耗方面，GraphRAG 在索引、检索和存储时，都需要大量的计算资源和内存。相比之下，语境图谱技术在计算和存储上的成本都较低，具有更高的性价比。

在检索策略上，GraphRAG 主要直接遍历语境图谱，方式相对固定。而语境图谱可以根据用户的查询，动态选择深度优先搜索或广度优先搜索来遍历图和文档，更加智能和灵活。

此外，GraphRAG 目前仅支持文本数据的构建，应用场景相对有限。而我们对语境图谱技术的规划是，未来将其扩展到多模态数据，如图像、音频等。这将进一步丰富语境图谱的应用场景，为金融决策智能体提供更强大的支持。

金融场景应用

1. 经济超脑

前文提到的思维图谱和语境图谱技术已切实落地到了实际应用中，虽尚未形成完整产品，但已有不少客户在实际使用。

以我们打造的经济超脑系统为例，无论是金融机构还是政府部门，都能借助该产品进行信息检索、数据展示以及研报辅读。

该系统的独特之处在于，会运用前述技术构建一个思维脑图。在检索过程中，涉及图的扩展，会生成思维导图。检索结束后，会以可视化形式将思维导图展示给用户。如此一来，用户能清晰看到大模型在分解问题时从哪些角度进行分析，又是从哪些要点进行检索和信息召回的。

在研报辅读方面，同样可采用类似处理方式。利用思维导图结构，对研报进行整体总结，针对用户提出的问题，也能形成思维分析，为用户提供更全面、更深入的决策支持。

2. Alpha-GPT 自动化因子挖掘系统

除了常见的问答、文档辅读场景，我们在量化投资的自动因子挖掘领域也进行了特色尝试。在量化投资中，寻找具有 Alpha 的因子是关键步骤，这些 Alpha 因子通常可用符号化公式或代码表达式表示。

我们思考将大模型与知识图谱相结合，以更好地发挥二者优势。实际上，我们内部拥有大量 Alpha 因子及其描述，且这些因子之间存在关联，比如某个因子 C 可能是在因子 A 和 B 的基础上结合而来的，它们本身就能形成图谱结构。

基于此，我们希望大模型能够根据用户指令合成所需因子。具体过程为：通过图谱和向量检索，将相关因子检索回来，让大模型自发进行因子合成。在合成过程中，大模型会参考已有因子关系，例如因子 C 是基于 A、B 合成出来的，从而为新因子（如因子 D 和 E）的合成提供方向指引。与传统遗传规划（GP）的因子生成方式相比，这种方式更具目标导向性，效率更高。

生成因子后，我们会进行计算和回测，评估因子效果。若因子表现不佳，则将其丢弃或作为反思数据；若表现良好，则加入新的因子库，不断迭代，持续产生更多优质的 Alpha 因子。

值得一提的是，基于这套系统，我们在 2024 年的 WorldQuant 世界量化金融建模大赛中取得了优异成绩，获得中国区第二名，全国第三名（因第一名必须为人类，非自动化工具）。这一成绩充分证明了我们在量化投资自动因子挖掘方面的技术实力和应用价值。

未来方向

对于未来工作，从数据层、模型层和应用层三个层面进行展望。

1. 多模态金融知识融合、推理和生成

在数据层，图谱形式整合多模态数据是关键。我们可以以实体和概念为核心，将文本、图表、视频、图片等不同类型的数据，只要与实体相关，就建立与实体的连接，通过核心实体图谱将多模态信息关联起来。

不过，这一过程中需要解决一些问题。例如，如何实现多模态对齐，怎样从不同模态中抽取实体，以及面对检索到的不同模态信息，如曲线图、折线图、文本、表格等，多模态分析大模型该如何处理。实际上，我们在这方面已有相关研究，相关成果作为 Oral paper（口头展示论文）发表在今年的 ICLR 2025 会议上。

除了多模态数据作为输入进行分析，另一个值得探索的方向是如何生成多模态数据。比如生成一份完整报告，其中包含不同图表、表格、文字甚至图片。我们认为，未来可以通过图谱结合多模态大模型与智能体的架构来实现这一目标。这种架构将为金融决策智能体提供更丰富、更全面的数据支持，进一步提升其在金融决策中的应用价值。

2. Agentic 金融系统

从模型层面来看，我们将致力于实现模型的智能化，不再仅仅将大模型视为生成模型，而是将其打造成真正的智能体。近期，在 Athropic 的 MCP 协议等推动下，智能体发展迅猛，今年已被公认为智能体爆发元年。

与传统大模型智能体相比，新型智能体不仅能生成语言，更能交付完整产品。在执行过程中，它能根据用户意图进行规划、执行，调用不同工具，并对结果和生成内容进行反馈、反省，持续迭代，直至生成优质结果，无论是完整文档还是交易策略，而非简单的文本段落。

在技术实现上，以多模态大模型作为智能体核心，采用强化学习作为训练方法。我们可以把市场上真实有效的多模态数据，通过多模态动态图谱组织起来，让该图谱充当 Multi-Agent 系统中环境的一部分，从而实现端到端的复杂任务建模。

此外，借助图谱的因果链分析、关系链分析，以及大模型内部的注意力可视化技术，在生成过程中生成引用，能让整个决策更具可解释性和可追溯性，一定程度上降低黑箱决策风险，使系统相对白箱化。

尤为关键的是，要将人的因素融入其中，实现 Human in the loop。支持在不同阶段进行人为干预，在关键节点，系统应自动请求人类介入和确认，这样既能保留 AI 的效率，又能确保人类在 AI 决策系统中的最终决策权。

3. 决策型应用场景

从应用场景的角度来看，随着大模型、Agent 技术及图谱在多模态化方面取得显著进展，以及准确性的实质性提升，我们迎来了一个从当前以金融服务场景为主，向更广泛的决策性应用场景拓展的契机。

决策性应用场景涵盖投资决策、风险管理、企业财务运营以及金融产品设计等多个关键领域。在这些场景中，大模型将有机会充分展现其超越人类的能力，而不仅仅作为辅助人类决策的“副驾驶”（copilot）。

具体而言，在投资决策中，大模型能够凭借强大的数据处理和分析能力，为投资者提供更加精准的市场预测和策略建议；在风险管理方面，大模型可以实时监测市场动态，及时发现潜在风险，并为企业提供有效的风险防控方案；在企业财务运营中，大模型能够优化资源配置，提升运营效率，助力企业实现可持续发展；而在金融产品设计领域，大模型则能够激发创新思维，推动产品迭代升级，满足市场多元化需求。

因此，在知识驱动的金融决策智能体框架下，大模型在决策性应用场景中将发挥更加重要的作用，为金融行业带来前所未有的变革与发展机遇。

4. 未来展望

在金融 AI 场景中，我们认为未来图谱可作为核心元素。它能把零散的多模态信息交织成网络，为智能体构建复杂任务模型提供支持。同时，图谱还能提升解释性和推理准确性，让大模型充分发挥其强大能力，助力我们做出更优质的金融决策。

Q&A

Q1：思维导图的形成是基于图查询的形式，还是基于 RAG 结果，亦或是基于大模型 COT 结果生成的呢？

A1：其实，思维导图的形成并非采用让大模型直接生成这种简单方式，因为这种方式幻觉程度较高。

我们在生成思维导图时，采用的是迭代式过程。以“恒大集团爆雷有哪些端倪，有哪些公司存在同样问题”为例，首先围绕恒大集团找出关联实体。通过分析这些实体与恒大集团相关文本和问题的相关性，排除不相关节点，比如恒大足球。若发现住建部与恒大集团相关文本和问题相关性更大，就将住建部列为重点考虑对象。

通过这一过程，从恒大集团扩展到住建部、穆迪评级等关联实体，完成思维图谱的第一层级。接着，以住建部、恒大集团为起点，继续向相关实体展开，形成思维导图的第二层级。

由此可见，我们是结合 RAG 和图谱结构，迭代地慢慢形成思维导图。检索和思维导图形成是交替进行的过程，并非先生成思维导图，再依据其逐步检索。整个过程类似 Agent 机制。

Q2：在发散搜寻与问题相关的本地非结构化文件来补充信息时，如何实现快速召回？

A2：关于快速召回的问题，我们确实需要实现高效的信息检索。具体操作时，我们会借助向量相似度进行判断。以恒大集团为例，在第一轮检索中，我们仅会在与恒大集团及其相关实体带有标签的文档里进行搜索。那些既没有恒大集团标签，也没有相关实体标签的文档，在第一轮检索时就会被排除在 document pool（文档池）之外。

我们的检索方式是将向量数据库、标签检索和关键词检索相结合。这其实就是传统 RAG（检索增强生成）的一种应用，只不过我们采用了迭代式的方式，并且借助图谱中实体的连接来进行引导，从而实现更精准、高效的信息召回。

Q3：图谱建模过程不进行关系抽取，这是为什么呢？

A3：关于图谱建模过程不做关系抽取的问题，这里为大家解释一下。在整个建图过程中，我们实际上只需要建模所需的实体关系，即贡献关系。也就是说，我们无需明确两个实体之间是股东关系还是竞争对手关系等具体关系类型。我们只需将相应文本块在向量数据库中的索引放置到图的边上。

当我们后续需要分析两个实体之间的关系时，能够快速召回描述它们关系的所有文本。采用这种方式，我们完全省去了关系抽取这一难度大、精确度低且容易造成信息损失的过程。

而且，这种方式的扩展性极强。当有新的段落出现时，我们只需在新段落中进行实体抽取，并与原有图谱中的实体进行匹配，判断是否需要为段落添加标签，或者新增实体扩充到图谱中。如此一来，图谱扩展的成本非常低。

Q4：在给定句子中若存在两个实体，是否需要找出这两个实体之间的所有节点呢？

A4：在实际情况中，当问句里提到多个实体时，我们的处理方式是从多个实体同时出发。多数情况下，问题里可能以一个实体为核心，这种情况较为常见。但也会遇到问题中包含多个主体实体的情况。

比如，若问题涉及恒大集团和融创的对比，我们可以同步从恒大集团和融创的图结构关系往外搜索。最终可能会形成两个不同的思维导图，而这两个思维导图中间往往会有交集，呈现出这样的结构。

我们并非直接去找两个实体之间的所有关系，因为若图谱规模较大，这种搜索方式的成本会比较高。

Q5：Think On Graph 的商业模式是什么？

A5：我们这项技术本质上属于底层技术。在前面的介绍中，我们也提及了一些应用案例。首先，它能够迭代现有的 RAG 知识库问答 API，为本地化知识库架构提供新的标准文档。目前，我们已经与一些头部数字人公司展开合作，应用于他们的客服数字人项目中。在数字人项目中，针对用户问题生成答案这一模块，正是采用了我们这套系统。

此外，这项技术还可用于经济分析产品的开发，甚至应用于量化因子挖掘领域。它作为底层技术，具有广泛的应用场景。由于我们最初是一家研究机构，所以本次分享更多是从技术角度出发，介绍了一些相关应用场景。与 WarrenQ（恒生智能投研平台）这类较为成熟完善的产品相比，可能存在一定差异。

Q6：在不抽取关系，而是通过向量来决定关系关联性高的情况下，应该如何选择搜索的深度和广度策略？

A6：关于关系关联性高低的判断，我们刚才提到，一部分是基于向量化，另一部分则是基于关键词字符的匹配，以此来决定文本段与问题的相关性。我们是将这种方法与 RAG 相结合的。

至于如何选择搜索的深度和广度策略，我们运用了图检索技术，准确来说，这其实是一个 Beam search（集束搜索）的过程。在 Beam search 中，我们可以人工定义搜索的最大宽度和最大深度，或者让大模型一开始进行识别。大模型会判断这个问题是偏向于宽泛的，还是偏向于深度的关系检索。

例如，如果问题是关于一个公司的股权结构，这显然是一个比较深入的问题，我们可以自适应地调高 Beam search 中的最大搜索深度。而如果问题很宽泛，比如研究某一个行业，需要关注这个行业里所有的龙头企业，那么这就更注重搜索的宽度，我们可能会自动调高宽度的阈值参数。

Q7：预训练有用到 CLIP 方面的探索吗？

A7：由于 CLIP 是一个多模态检索模型，在我们今天所介绍的图谱技术中，其实尚未应用到它。不过，我们后续有这样的发展规划：倘若要将多模态信息融入其中，比如引入图片，而图片也能够以向量化的形式呈现，那么 CLIP 的相关技术就可以派上用场。

在我们开展多模态处理与理解工作时，CLIP 可以作为前置的视觉编码器（visual vision encoder）部分，负责处理视觉信息并将其向量化。就像我们之前专门做图表分析的多模态大模型，其前置的视觉编码器同样采用了 CLIP。

Q8：关于 graph guide 检索，能详细讲解一下它是如何实现比 GraphRAG 高效那么多的吗？

A8：在前文中提到了很关键的一点是，Graph RAG 的整个流程主要依赖大模型的 Zero-shot 或者 Few-shot 以及 In-context learning 能力，来完成知识图谱的抽取、信息的汇总总结（summarization），甚至形成报告等任务。

由于它既要进行抽取，又要做信息汇总，还要进行社区检测（community detection）以及社区总结，所有这些工作都由大模型来完成，所以整体速度非常慢。

而我们的方法则简化了问题，只需要做实例抽取、向量化表示，以及贡献关系的记录和计算。在这个过程中，我们调用的模型主要是 Bert 级别的。比如在做命名实体识别（NER）时，我们使用了自己研发的 UniEX 模型，这个模型在 ACL 上发表过，具有很强的扩展性和高效性，能够很好地完成实体抽取任务。向量数据库方面，我们使用的也是 Bert 级别的模型。

因此，在速度和效率方面，我们与 Graph RAG 的主要差异就体现在这里。

Q9：在多模态金融知识图谱，能否详细阐述一下多模态信息是如何被引入图谱结构中的呢？我相信这是大家都比较关注的问题。

A9：确实，这是个很关键的问题。在我们构建的知识图谱中，核心要素是实体，而实体之间是相互关联的。目前，我们已经实现了将文档信息融入图谱结构，具体做法是：当同一个文档提及两个实体时，我们将该文档在数据库中的索引添加到这两个实体之间的边上。

对于多模态信息，我们同样可以采用类似的方法进行处理。例如，在表格中，不同的列可能包含不同企业的对比信息。我们可以利用 OCR 技术抽取这些与实体相关的信息。如果图表是在对比两家企业，那么这张图表就与这两家企业都相关。同时，我们还可以将图片进行 embedding 存储，转化为向量形式。这样，图片信息就可以像文本信息一样，被融入到整个知识图谱中。

通过这种方式，我们能够将不同模态的数据全部纳入数据结构。而且，在检索方面，也可以采用类似的方法。比如，对于文档检索，我们可以使用一些通用的 embedding 模型；但对于多模态检索，特别是金融领域的多模态数据，我们可能需要使用专业的模型，如 CLIP 或其他多模态解码模型。

确实，金融领域存在大量多模态数据，如何有效利用这些数据，是我们需要深入探索的问题。

以上就是本次分享的内容，谢谢大家。