AI热点 1 days ago 182 Views 10 Comments

官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合

AI中国
AI中国

Published 7901 Articles

ChatGPT Agent的技术内幕,被官方披露了。


就在OpenAI官方推出其最强智能体后,外界褒与贬的热议都没停过……但不论如何,都被视为智能体方向上标志性的一步,是OpenAI一个全新的开端。


关于更进一步的Agent Mode的工作原理,OpenAI开发团队在和投资方红杉资本的圆桌谈话中做了详细解析,还回答了几个值得关注的问题。


这是OpenAI官方首次详细解析ChatGPT Agent功能背后的原理。



ChatGPT Agent由以下四个部分组成:


  • Deep Research(基于文本的研究智能体)
  • Operator(基于GUI/操作的计算机智能体)
  • 其他新工具(终端、图像生成、API调用等)
  • 通过共享状态进行整合


然而,智能体也不是想要整合就能整合的,在这场谈话中,OpenAI透露了他们的训练方法,以及他们为ChatGPT Agent做出的组织调整


量子位提取并总结了一些关键信息,让我们一起来看。


歪打正着的起源


在正式走近ChatGPT Agent之前,让我们介绍一下这次谈话的几位主角,他们分别是OpenAI团队核心成员Isa FulfordCasey Chu孙之清


  • Isa Fulford,斯坦福大学计算机科学硕士(人机交互方向),2022年11月加入OpenAI,现主导ChatGPT Agent的交互范式设计。
  • Casey Chu,OpenAI资深员工,斯坦福数学硕士,领导GPT-4视觉输入初始原型开发,现为Operator/ChatGPT Agent技术负责人。
  • 孙之清,95后北大校友,DeepResearch负责人,去年6月博士还没毕业就加入了OpenAI,在后训练团队担任研究科学家,已参与OpenAI的诸多核心项目。


在这次的谈话中,他们介绍了ChatGPT Agent的起源:


我们团队分别开发了Operator和Deep Research,在分析用户请求时发现,Deep Research的用户非常希望模型能够访问需要付费订阅的内容或有门槛的资源,而Operator恰好具备这种能力。
通过分析Operator的用户提示发现,很多用户实际上试图用它执行Deep Research类型的任务。
除了整合两个核心工具,我们还添加了终端、图像生成等多项功能。


原本两个功能不同的智能体,就这样在用户的“错用”下合二为一,变成了一个更通用的ChatGPT Agent。


1+1>2,怎么做到的?


简单地说,ChatGPT Agent是Deep Research和Operator合作的成果。


Deep Research擅长文本阅读与综合报告,而Operator擅长视觉交互(如点击、输入、滚动);在此基础上,ChatGPT Agent补足了Deep Research不擅长多轮对话的短板,能持续协作;又能在保持视觉交互的同时,执行研究类任务。


但它们是如何整合到一起的呢?


在这次圆桌谈话中,ChatGPT Agent团队首次披露了他们的训练方法:将所有工具集成至虚拟机,通过强化学习让模型自主探索最佳工具组合


具体来说,在训练过程中,模型被赋予所有可用的工具,例如文本浏览器、虚拟浏览器、终端工具和图像生成工具,它们都运行在同一个虚拟机(VM)环境中,并且所有工具都共享状态,类似于一台电脑上不同应用程序访问相同文件系统的方式。


这种设计使ChatGPT Agent能高效处理互联网、文件系统和代码等交互任务。研究团队没有预先指定工具使用规则,而是让模型通过强化学习自行发现最佳策略。


研究团队会创建一系列难度较高的任务,而模型需要调用已有的工具来完成任务。通过奖励机制,如果模型能够高效且正确地完成任务,它就会得到奖励,从而学会如何更好地执行任务。


训练后的模型能够通过实验自主学习如何高效、正确地完成任务,并流畅地在各种工具之间切换,而无需被明确告知何时使用何种工具。


例如,如果任务要求研究餐厅并预订,模型可能会先使用文本浏览器进行研究,然后切换到图形用户界面(GUI)浏览器查看食物图片或预订可用性(这通常需要实际的GUI浏览器来处理JavaScript元素)。



ChatGPT Agent团队认为这种训练方法潜力巨大。ChatGPT Agent目前仅为最简可行产品(Minimum Viable Product,MVP),但已经展现出强大的能力。同样的强化学习算法也适用于Deep Research、Operator,研究团队在短时间内就取得了这些成果,未来还有很大提升空间。


在交互性方面,ChatGPT Agent团队主要关注端到端性能,从用户提示到任务完成。


ChatGPT Agent在与用户交互方面表现良好,部分原因是它在训练中纳入了多样化的任务轨迹,用户可随时干预,提供澄清或更正,它也能根据反馈调整行为。


ChatGPT Agent的开发可追溯到2017年的World of Bits项目,最大的变化是训练规模的提升,无论是预训练还是强化学习,计算量可能增加了数十万倍,使ChatGPT Agent的短时间开发得以实现。


小团队能成大事


OpenAI为了打造ChatGPT Agent,对其下的组织架构做出了调整。


比方说参与这次圆桌谈话的Isa Fulford和孙之清,是Deep Research团队的核心成员,而Casey Chu是Operator的技术负责人。


简单地讲,ChatGPT Agent团队由Deep Research和Operator的研究与应用团队合并而成。



这个团队的总人数并不多,Deep Research团队最初只有3-4人,Operator团队约6-8人,合并在一起,加上产品和设计人员,也就20到35人,但他们花几个月就完成了这个项目。


他们在谈话中表示,ChatGPT Agent团队对研究与应用的界限并不严格,应用工程师参与模型训练,研究人员也参与模型部署


研究与应用团队紧密合作,从定义产品功能到模型训练均以用户场景为导向。


这种跨职能合作使项目充满活力,团队氛围非常好。


虽然ChatGPT Agent尚未完全实现所有目标,但这种组织框架使他们能够快速迭代。


安全机制与未来发展


谈话还提到了ChatGPT Agent遇到的挑战,以及他们对未来的展望。


在训练过程中,ChatGPT Agent遇到的最大的挑战是训练的稳定性问题,ChatGPT Agent需同时处理多种新工具,且都在同一虚拟机环境中运行。这就需要同时运行成千上万的虚拟机访问网络,经常遇到网站宕机、API限制或网络容量不足等问题。


某些网站可能因流量过载而暂时不可用,或者API调用因速率限制而失败,这要求研究团队在训练中加入鲁棒性机制,确保ChatGPT Agent能处理这些异常情况。


另外,由于ChatGPT Agent能够执行具有外部副作用的操作(例如购买物品),研究团队在安全方面投入了大量精力,实施了多层次安全措施,包括以下四个方面:


  • 实时监控系统检测异常行为,若发现可疑操作会立即暂停任务
  • 执行敏感操作前强制用户确认
  • 生物风险专项防护
  • 支持用户随时接管操作


研究团队特别关注了生物风险等严重问题,例如防止ChatGPT Agent被用于创建生物武器。



对于未来的展望,ChatGPT Agent团队在这次谈话中表示,OpenAI倾向于打造一个通用的超级智能体


虽然单一智能体模型在扩展性和通用性上更具潜力,但研究团队希望通过持续优化,让ChatGPT Agent能够无缝处理从简单查询到复杂工作流的各种任务,减少用户对多个专用模型的依赖。


从市场价值的角度来看,定制化模型可能更优,但从训练角度看,通用智能体能更好地利用技能的可迁移特性。研究团队也在探索如何通过强化学习进一步提高ChatGPT Agent的泛化能力,在遇到全新任务时快速适应,而无需大量额外训练数据。


未来,ChatGPT Agent可能通过学习用户反馈,动态调整其行为模式,进一步提升任务完成的精准度


总的来说,ChatGPT Agent的未来发展方向如下:


  • 增强多轮对话与个性化记忆
  • 开发主动服务能力
  • 探索更自然的交互范式
  • 提升复杂任务(如数据分析)的完成度


目前ChatGPT Agent已开放使用,Plus用户每月有40次使用额度。



ChatGPT Agent的研究团队在采访中表示,他们有意设计了一个开放式的智能体,鼓励用户探索其潜力。


参考链接:

[1]https://x.com/sonyatweetybird/status/1947718831075693055?s=46

[2]https://www.youtube.com/watch?v=YNWWu0aZ5pY

[3]https://x.com/OpenAI/status/1945904743148323285


文章来自微信公众号 “ 量子位 ”,作者 不圆


AI中国

AI中国

7901 Articles 1222196 Views 950300 Fans

评论 (10)

用户头像

这东西,太搞笑了,人类的智慧都快被它榨干了

用户头像

ChatGPT探索工具,这感觉就像在跟一个强大的敌人玩捉迷藏

用户头像

挺有意思的,但我觉得这只是个开始,更可怕还在后面

用户头像

感觉未来的世界,只有算法知道答案

用户头像

这个东西,别说厉害,简直是魔鬼在玩弄人类

用户头像

真搞创意,以后人类就当宠物吧,哈哈

用户头像

ChatGPT探索工具,感觉世界要崩塌了,有点刺激

用户头像

挺好玩,但别太依赖,不然以后就没活路了

用户头像

简直是神仙操作,人类的创造力要被取代了啊

用户头像

这玩意儿有点意思,感觉未来要被AI支配了

睡觉动画