AI热点 7 hours ago 92 Views 0 Comments

最新Agentic Search综述,RL让Agent自主检索,RAG逐渐成为过去式

AI中国
AI中国

Published 11300 Articles

大型语言模型(LLM)本身很强大,但知识是静态的,有时会“胡说八道”。为了解决这个问题,我们可以让它去外部知识库(比如维基百科、搜索引擎)里“检索”信息,这就是所谓的“检索增强生成”(RAG)。但这还不够,更高级的方法是让 LLM 变成一个能自主决策的“智能体”(Agent),它能自己决定“何时搜、搜什么、怎么搜、如何利用搜索结果”,这个过程就叫做“智能体搜索”(Agentic Search)。而要让这个智能体变得更聪明、更自适应,最好的方法之一就是用“强化学习”(RL)来训练它。



强化学习(RL)正好提供了“和环境交互—拿反馈—改策略”的自适应机制,于是本文写成首篇专门聚焦“基于RL的代理式搜索”的系统综述,来自宾夕法尼亚州立大学的研究者们用三条主轴组织全篇:What RL is for(RL在干什么)How RL is used(RL怎么用)Where RL is applied(RL用在何处),再配套评测与应用、开放挑战与展望。带您一文读懂RL如何赋能智能体搜索,从基础原理到评测与应用的全景脉络。


信息检索技术的发展历程


信息检索技术的发展其实是一条不断提升“智能化”水平的道路,理解这条路能帮我们看清当前的位置。最早的传统信息检索(IR),比如经典的BM25算法,就像一个图书馆的“图书目录”,您输入关键词,它给您返回一堆可能相关的书,但具体哪本、哪一页有用,得您自己判断。后来,检索增强生成(RAG)出现了,它更像一位“图书管理员”,您提出问题,它不仅帮您找到相关的书,还会翻到具体的某一页,把内容直接递给您,这大大提升了答案的准确性,但它的工作方式依旧是被动的。


代表性综述与这篇工作的比较。✓表示该主题是主要关注点;✗表示有限或未涵盖


当面对一个真正复杂的问题时,比如“分析一下最近AI芯片市场的竞争格局和未来趋势”,一次搜索是远远不够的。这时候就需要“智能体搜索”登场了,它扮演的是一个“智能研究员”的角色。它会先思考,把大问题拆解成“目前主流的AI芯片有哪些?”、“英伟达、AMD、谷歌的最新产品是什么?”、“市场份额和财报数据如何?”等一系列子问题,然后主动去搜索、阅读、整合信息,甚至在发现信息冲突或不足时,会主动调整搜索策略,再进行新一轮的探索,直到形成一份全面、可靠的报告。这篇论文告诉我们,强化学习正是训练出这种高级“研究员”的关键技术。


强化学习基础:RL如何训练智能体


那么,强化学习(RL)究竟是如何训练智能体的呢?您可以把它想象成一个“教练与运动员”的模型。LLM智能体是“运动员”,搜索引擎、数据库等外部工具是它训练的“场地”(环境),智能体的每一个搜索或推理行为都是一个“动作”。当智能体完成一次任务后,“教练”(奖励函数)会根据最终答案的质量(比如准确率、事实一致性)和过程的效率(比如搜索次数、API调用成本)给出一个“分数”(奖励或惩罚)。



强化学习的核心组件。智能体(Agent)在特定状态(State)下执行一个动作(Action),环境(Environment)会反馈一个奖励(Reward)并进入下一个状态,智能体根据这个循环来学习最优策略。


这个“分数”就是驱动智能体学习的核心信号。通过最大化累积奖励,智能体能逐渐学会,哪些动作序列能带来高分,哪些是无效的“瞎忙活”。研究者们在这篇论文中总结了当前最主流的几种训练算法,比如PPO(近端策略优化)、GRPO(组相对策略优化)和DPO(直接偏好优化),它们各有侧重:PPO像一位经验丰富的老教练,稳定但需要额外的“陪练”(价值网络);GRPO则更轻量,通过让一组“克隆运动员”内部比较来学习,节省了资源;而DPO则另辟蹊径,直接学习“好动作”与“坏动作”之间的偏好差异,过程更简单直接。


三大维度:What、How、Where


维度一:强化学习究竟能做什么?(What RL is for)


您可能会问,RL具体能优化智能体搜索的哪些环节?研究者们将其归纳为五大核心角色,这远比简单地“触发一次搜索”要丰富得多,它贯穿了从理解问题到最终回答的全过程。



  • 检索控制(Retrieval Control):这是最基础也是最核心的功能,RL教会智能体进行“成本-收益”分析。它能自主决定一个问题是应该靠自己的内部知识回答,还是必须求助外部搜索;对于复杂问题,它还能学习决定搜索的“深度”和“持久度”,比如要不要进行多轮搜索;最终目标是实现高效搜索,用最少的搜索次数(降低成本和延迟)来解决问题,避免冗余操作。


  • 查询优化(Query Optimization):智能体生成的搜索查询质量直接决定了结果的好坏,RL 在这里扮演了“沟通桥梁”的角色。一方面,它能将用户在多轮对话中提出的模糊、依赖上下文的问题,重构成清晰、独立的搜索查询。另一方面,它还能学习特定搜索引擎的“脾气”,生成更符合其索引和排名偏好的查询,从而拿到更高质量的检索结果。


  • 推理与检索的整合(Reasoning-Retrieval Integration):高级的智能体搜索不是简单的“先搜后想”,而是“边搜边想、边想边搜”的动态过程。RL能够优化这种推理与搜索交织进行的过程,让推理的中间步骤指导下一步的搜索方向,而新的搜索结果又能反过来修正和深化推理路径。还有最重要上下文与记忆管理,在长周期的搜索任务中,RL还能帮助智能体管理有限的上下文窗口,学习决定哪些信息需要被记住、总结或遗忘。


  • 多智能体协作(Multi-Agent Collaboration):对于极其复杂的任务,单个智能体可能力不从心,这时就需要一个“智能体团队”。RL可以用来训练一个“规划者”智能体,它负责任务拆解和指挥,然后将子任务分配给专门的“执行者”智能体(如查询重写器、文档筛选器)共同完成复杂的搜索任务。通过共享的奖励机制,这些各司其职的智能体能够高效协同,共同完成一个宏大的搜索目标。


  • 工具与知识的整合(Tool and Knowledge Integration):现代AI应用不仅要会搜索文本,还要会使用计算器、代码解释器、甚至调用视觉模型来分析图片。RL可以训练智能体成为一个“多面手”,根据任务需求,灵活地在网页搜索、知识图谱(KG)或数据库查询、代码执行等多种工具和知识源之间进行选择和组合。


维度二:我们该如何使用强化学习?(How RL is used)


了解了RL能做什么之后,接下来的问题就是具体该怎么操作,这直接关系到您如何将这些理念落地到产品开发中。研究者们从训练范式和奖励设计两个方面给出了清晰的路线图,这对于您在实际开发中非常有指导意义。


  • 训练范式(Training Regime):一个非常标准且有效的流程是“SFT冷启动 + RL微调”,您可以将其理解为“先跟老师学,再自己练”。我们先用高质量的“专家范例”对模型进行监督微调(SFT),让它掌握基本的搜索和推理能力,知道“该怎么做”;然后,再通过强化学习(RL)进行微调,让智能体在真实或模拟的环境中自由探索,通过奖励信号学会“如何做得更好”,发现那些专家范例之外的最优策略。为了降低真实API调用的高昂成本和不稳定性,很多工作都在“模拟环境”中完成大部分训练,并通过“课程学习”(由易到难安排任务)来保证训练的稳定性。


  • 奖励设计(Reward Design):这是整个RL训练的灵魂,它直接决定了您想让智能体“学成什么样”。奖励可以分为两类:一是“结果级奖励”,它只看最终答案的质量(如精确匹配度、F1分数),有时也会综合考虑效率(如搜索次数)和多样性,这种方式简单直接但信号稀疏,智能体很难知道到底是哪一步做错了。二是“过程级奖励”,它为智能体在搜索过程中的每一步行为都提供即时反馈,例如,对带来“信息增益”的搜索给予奖励,对“冗余搜索”或“不忠实于原文”的行为给予惩罚,这种密集的指导信号对于训练智能体完成长链条、复杂任务至关重要。



  • 智能搜索体的提示词模板:研究者在论文中贴出了一个标准的提示词模版,以Search-R1为例:



维度三:强化学习用在系统的哪个部分?(Where RL is applied)


在系统架构中,RL的应用范围也相当灵活,您可以根据产品的复杂度和优化目标,选择在不同层次上应用RL。研究者们将其划分为三个层次,从宏观到微观,层层递进。


  • 智能体级别(Agent-level):这是最彻底的应用方式,RL直接端到端地优化一个或多个智能体的完整决策策略。无论是单个智能体还是多智能体系统,它们的所有行为都由一个统一的、通过RL训练的策略来控制,目标是实现全局最优。


  • 模块/步骤级别(Module-Level & Step-level):这种方式更加轻量和灵活,它不是优化整个智能体,而是将RL聚焦于系统中的某个特定模块(如一个独立的搜索模块)或某个特定步骤(如查询生成)。例如,您可以只训练一个专门负责“查询重写”的RL模块,或者只在“是否需要搜索”这个决策点上使用RL,而系统的其他部分保持不变,这种“插件式”的优化方式更容易在现有系统中集成和测试。


  • 系统级别(System-level):这一层次的关注点在于构建统一的、可扩展的智能体搜索框架和评估基准。比如,像AgentGym-RL或RAG-Gym这样的平台,它们为研究者和开发者提供了一套标准化的环境、算法和评估工具,极大地推动了该领域研究的规范化和可复现性,让大家不再需要从零开始“造轮子”。


评估、应用与未来挑战


当然,一个技术好不好,最终要看它的实际效果和应用前景。研究者们在论文中系统地梳理了用于评估智能体搜索的“考场”(数据集)和“评分标准”(评估指标),以及它已经大放异彩的“应用领域”,这能帮助您更全面地衡量和定位自己的产品。



  • 数据集(考场):为了全面测试智能体的能力,学术界构建了多样化的数据集。这包括:需要深度知识的问答(如NQHotpotQA),模拟真实网页环境的搜索任务(如WebQAGAIA),需要结合图文信息的“多模态搜索”,模拟用户连续提问的“对话式搜索”,以及面向数学、医疗、科学等特定领域的专业基准。这些多样化的“考场”确保了智能体不仅要会“开卷考试”,还要能应对各种复杂、动态的真实场景。


  • 评估指标(评分标准):评分标准也变得越来越立体。除了传统的答案质量指标(如精确匹配EM、F1分数、ROUGE),新的评估体系更关注过程。例如,“搜索效果”指标(如精确率、召回率)衡量找到的信息是否相关;“搜索效率”指标(如查询次数、API成本)评估智能体是否“经济实惠”;而“过程质量”指标(如每一步搜索带来的“信息增益”、对证据的“利用率”)则深入考察其思考过程的合理性。


  • 典型应用:基于RL的智能体搜索已经在多个前沿领域展现出巨大潜力。例如,在深度研究领域,它可以像“科研助理”一样自动进行文献综述和假设生成;在多模态搜索中,它能结合图文信息进行商品搜索或数据分析;在代码智能体方面,它能自主搜索代码解决方案、执行并调试;在AI助手中,它能在多轮对话里更智能地理解用户意图,提供精准帮助。


不过,挑战依然存在。如何让智能体在处理文本、图像、音频等多种信息的“多模态搜索”中保持逻辑一致?如何为需要跨越数天甚至数周的“长时程研究任务”设计有效的记忆机制?以及,如何确保智能体在开放网络环境中不被恶意信息误导,保证其行为的“可信赖性”?这些都是亟待今后去探索和解决的课题。


多模态能力的重要性


您可能会特别好奇,在这么多挑战中,研究者们是否强调了某一个特定的方向?答案是肯定的,而且非常明确。在这篇论文的未来挑战部分,研究者们将“多模态智能体搜索”(Multi-modal Agentic Search)放在了首要位置,认为这是该领域走向成熟、解决真实世界问题的关键瓶颈。于这方向近期的热点,您可以看下DeepSeek最新开源的DeepSeek-OCR:


《AI的光学时刻来了,DeepSeek-OCR运行3B参数,仅6.2G,完美!》


论文专门开辟了一个小节来介绍多模态搜索的应用。其中提到了像 VRAG-RL(用于理解富含视觉信息的文档)、Visual-ARFT 和 WebWatcher(结合网页搜索和视觉分析)等前沿工作。这说明多模态搜索已经不是一个纯理论概念,而是有了切实的落地应用和研究方向。


结语


这篇综述论文为我们描绘了一幅清晰的蓝图:通过强化学习,我们可以将LLM从一个被动的知识检索工具,转变为一个能够主动规划、探索和学习的智能体。它不再是简单地执行“检索-生成”的线性流程,而是在一个动态的决策循环中,不断优化自己的信息获取与问题解决能力。研究者在最后的小结中特别强调:真正可用的系统离不开“面向场景的适配、多模态能力、资源效率管理”。


文章来自于微信公众号“AI修猫Prompt”。


AI中国

AI中国

11300 Articles 2047357 Views 950300 Fans

Comment (0)

睡觉动画