最近,香港大学的 XLANG 实验室与月之暗面、斯坦福大学等多家机构共同开源了一个名为 OpenCUA 的全新框架。这个项目的目标是帮助开发者轻松构建和扩展计算机使用智能体(CUA),让每个人都能拥有属于自己的电脑助手。
OpenCUA 框架的推出,标志着计算机使用智能体的又一次飞跃。它不仅提供了一套无缝的注释基础设施,用于捕捉人类在电脑上使用的演示,还集成了一个名为 AgentNet 的大规模计算机使用任务数据集。该数据集覆盖了超过200个应用程序和网站,以及跨越三个主要操作系统,给开发者提供了丰富的数据支持。
除此之外,OpenCUA 还具备一套可扩展的工作流程,能够将演示转换为 “状态 - 动作” 对,推动长链推理能力的反思。这意味着,开发者可以根据自身需求,轻松构建个性化的智能助手,帮助用户更高效地完成工作。
项目的负责人余涛教授表示,OpenCUA 通过开放完整的数据、工具和模型,旨在使 “人人都能打造自己的专属电脑智能体”。该框架在多个关键基准上表现出色,甚至超越了目前最先进的 GPT-4o,成为最强大的开源 CUA 解决方案。
随着 OpenCUA 的推出,计算机智能体的应用将更为广泛和便捷。开发者们不仅可以根据自身需求进行定制,还能够借助该框架提升用户的计算机使用体验。值得注意的是,这一项目得到了多所知名大学及企业的参与,显示了科技界在智能体研究领域的合作与共赢。
OpenCUA 的开源为未来的智能助手开发提供了全新的可能性,让我们期待科技将如何进一步提升我们的工作和生活效率。
项目地址:https://opencua.xlang.ai/
论文地址:https://arxiv.org/pdf/2508.09123