从强化学习到多智能体协作，大模型时代的智能体落地全景揭秘｜ML-Summit 2025

大模型时代，如何打造一个“能学会、跑得快、做得好”的通用智能体？

2025 年被业界视为智能体应用实践飞速发展的一年。各类企业和机构在落地智能体解决方案上不断尝试与迭代的同时，技术人员的讨论焦点更多集中在技术路线的选择上：是依赖规则清晰、可控高效的 Workflow，还是交给自主规划、灵活泛化的 Agentic？

前者在标准化任务中表现稳定高效，后者则在多步骤、动态和复杂场景中展现更大潜力。基于这一趋势，2025 全球机器学习技术大会特别设立「智能体工程与实践」专题，汇聚国内外顶尖学者与企业一线实践者，深入探讨智能体在大模型时代的工程方法、落地经验与技术路线选择，呈现从理论创新到产业应用的全景视角。

目前 2025 全球机器学习技术大会售票已进入倒计时阶段，请抓住最后机会，与全球顶尖 AI 专家面对面交流，席位有限，建议尽快完成购票。

智能体工程与实践

在本次专题中，来自国内外的顶尖研究者与一线实践者，将从智能体底层框架、工具生态建设到应用落地经验进行分享。

清华大学交叉信息院助理教授，博士生导师吴翼

在该专题上，来自前 OpenAI 研究员、清华大学交叉信息院助理教授、博士生导师的吴翼教授将带来他的最新实践分享。

吴翼，清华大学交叉信息院助理教授，博士生导师，智能体强化学习框架 AReaL 负责人。2019 年于加州大学伯克利分校获得博士学位，曾任 OpenAI 全职研究员，研究领域涵盖强化学习、推理模型及通用智能体。其代表作包括多智能体学习算法 MAPPO、MADDPG 以及 OpenAI 多智能体“捉迷藏”项目等，并曾获得 NIPS 2016 Best Paper Award、ICRA 2024 Best Demo Award Finalist、WAIC 2025 云帆奖及 MIT Tech Review Asia-Pacific 35under35 荣誉。

在「智能体工程与实践」专题中，吴翼将带来《AReaL：面向智能体的全异步强化学习框架》的主题分享。智能体是 AGI 时代大模型最重要的应用形态，而强化学习是训练通用智能体模型的核心技术。

演讲将涵盖以下内容：

强化学习与大模型的结合点 —— 探讨 RLHF、Reasoning RL、Agent RL 在智能体训练中的应用与挑战；
Agent RL 的核心挑战 —— 包括多智能体协作、推理能力和泛化能力的优化问题；
通过全异步强化学习实现训练加速：在推理 RL 场景上可达 3 倍加速，在多智能体搜索场景中实现 3-5 倍加速；
AReaL-lite —— 最新版本，通过全新的算法中心设计，实现“最好写的 Agent RL 框架”，降低开发门槛。

Astribot 副总裁，前 DeepMind 研究员王佳楠

王佳楠现任 Astribot 副总裁，主导机器人与人工智能交叉领域的研究与应用。在加入 Astribot 之前，她曾在 DeepMind 及国际数字经济学院担任人工智能研究员与工程师，积累了丰富的前沿研究和工业落地经验。王佳楠于 2018 年获得牛津大学计算机科学硕士学位，其研究成果已发表于 ICLR、NeurIPS、CVPR 及《Nature》等顶级学术会议和期刊。

在智能体领域，王佳楠关注如何让智能体在动态环境中实现持续学习与自适应能力，并致力于开发无需反向传播的神经网络架构，以增强模型对灾难性遗忘的鲁棒性，同时支持组合式迁移学习，为智能体在复杂、多变场景中的长期稳定运行提供技术基础。她的研究不仅推动了理论发展，也对智能体在工业机器人、自动化系统及大模型应用中的实际落地具有重要参考价值。

字节跳动扣子罗盘服务端技术负责人杨晨

杨晨现任字节跳动 AI Platform 部门技术专家、扣子罗盘服务端技术负责人，从 0-1 落地 AI AgentOps 平台，服务字节跳动 Flow、抖音、电商、懂车帝等多条业务线的 AI 应用实践。他持续关注 AI 应用开发平台的前沿动态及创新，对 AI 应用落地及效果调优有深入洞见，并深度参与开源项目扣子 & 扣子罗盘的建设，上线首周 GitHub Star 数量高达 coze-studio 11k+、coze-loop 4k+，社区关注度广泛。

杨晨将分享演讲《扣子罗盘：Agent效果评测与迭代优化实践》。2025 年，Agent 从概念验证逐步进入生产落地阶段，企业开发从传统 chatbot 转向多轮、多模态、跨工具的复杂智能体，带来新的效果评测挑战：指标定义模糊、结果不确定性高、线上表现波动大。杨晨将结合字节跳动多业务线 Agent 落地经验，系统解析从评测集构建、指标体系设计，到持续集成与线上监测的全链路实践方法，探索如何在不确定的 AI 行为中建立可复用的效果评测体系，并支撑快速迭代与线上稳定运行。

京东集团算法总监、OxyGent 开源项目架构师韩艾

韩艾博士现任京东集团算法总监，京东零售数据与算法通道委员，同时担任 OxyGent 开源项目架构师与核心开发者。他拥有中科院与康奈尔大学联合博士学位，以及北京大学双学士背景，长期专注于多智能体动态规划与联合训练等 AI 创新方向，主导开发了京东商家智能助手多智能体系统框架。韩艾还兼任中国科学院大学、北京工业大学硕士企业导师，以及西安电子科技大学客座教授。

在本次大会上，韩艾将分享演讲《OxyGent – 京东零售开源的多智能体协作框架》。该框架于今年 7 月开源，旨在帮助开发者高效组装多智能体系统。OxyGent 将工具、模型和智能体抽象为可插拔的模块（Oxy），支持像搭积木一样灵活组合，具备极致可扩展性和全链路决策追溯能力，为企业在多智能体协作和复杂决策场景中提供实践经验与技术支撑。

阿里云高级技术专家周礼

周礼拥有 10 年以上中间件领域研发经验，是 Apache RocketMQ 创始团队核心成员，长期主导超大规模分布式消息系统的架构设计、性能优化与稳定性保障，并深度参与双十一大促等集团关键场景的技术攻坚，积累了丰富的高并发、高可用系统实践经验。当前，他致力于 AI 云原生（AI-Native）消息中间件的技术创新与落地，聚焦面向大模型时代的新型消息架构，主导模型推理调度、Agent 间异步协作通信、智能任务流编排等核心场景的技术演进，推动消息中间件向智能化方向发展。

在 2025 全球机器学习技术大会「智能体工程与实践」专题中，周礼将带来演讲《ApacheRocketMQ×AI：面向异步化Agent的事件驱动架构》。本次分享将围绕 AI 应用高延迟、长周期、强状态和资源密集的特性，对底层基础设施提出的新工程挑战展开讨论。演讲将介绍如何利用 Apache RocketMQ 的创新特性，构建异步化 Multi-Agent 系统，实现 Agent 间解耦通信、上下文隔离、状态恢复与任务编排，并通过实际案例展示 RocketMQ 在 Multi-Agent 任务调度中的落地实践。

此外，本次盛会更设计了大语言模型技术演进、大模型应用开发实践、开源模型与框架、具身智能与智能硬件、AI Infra 大模型基础设施等十二大专题。汇聚了 GPT-5 & Transformer 核心共同发明人、OpenAI 资深研究科学家 Lukasz Kaiser，前 OpenAI 研究员、清华大学交叉信息院助理教授吴翼，前 DeepMind 研究员、Astribot 副总裁王佳楠这样定义 AI 时代的全球技术奠基者。

更集结了来自百度、阿里、腾讯、字节跳动、小米、理想汽车、小红书、智谱、群核科技等国内 AI TOP 企业的一线实践者，以及北京大学博雅特聘教授李戈等全球顶尖学者及产业精英、顶会论文作者，他们将围绕大语言模型技术演讲、大模型应用开发实践、智能体工程与实践、软件研发与氛围编程等当下最贴近开发的前沿专题展开分享，共同探讨 AI 技术的突破与落地实践。

我们诚邀全球 AI 产业参与者积极加入，共同捕捉前沿趋势，探索产业升级路径，推动 AI 走向更广阔的应用场景。期待在 ML Summit 2025，与每一位同行者携手见证 AI 时代的新篇章！