
清华大学与面壁智能发布端侧GUI Agent:AgentCPM-GUI
近日,清华大学THUNLP实验室联合面壁智能推出了一款创新的端侧GUI Agent——**AgentCPM-GUI**,为移动设备的人机交互带来全新突破。该智能体基于**MiniCPM-V**模型构建,总参数量仅**8B**,以手机屏幕图像为输入,支持中英文操作,可自动执行用户提出的任务,展现出强大的GUI元素定位能力。AgentCPM-GUI覆盖了包括**高德地图**、**大众点评**、**B站
近日,清华大学THUNLP实验室联合面壁智能推出了一款创新的端侧GUI Agent——**AgentCPM-GUI**,为移动设备的人机交互带来全新突破。该智能体基于**MiniCPM-V**模型构建,总参数量仅**8B**,以手机屏幕图像为输入,支持中英文操作,可自动执行用户提出的任务,展现出强大的GUI元素定位能力。
AgentCPM-GUI覆盖了包括**高德地图**、**大众点评**、**B站**、**小红书**在内的**30多个主流中文APP**,能够精准识别和操作APP界面元素,满足多样化的用户需求。无论是导航、点餐还是内容浏览,AgentCPM-GUI都能高效完成任务,极大提升了用户体验。
值得一提的是,该模型通过**RFT(推理前思考)**技术增强了规划推理能力。在执行用户指令前,AgentCPM-GUI会先进行推理思考,生成更准确的动作序列,从而提升任务执行的成功率和可靠性。这一技术的应用使其在端侧AI领域表现尤为突出。
作为一款轻量级高性能模型,AgentCPM-GUI在手机等端侧设备上运行流畅,展现了清华大学THUNLP实验室与面壁智能在AI技术上的深厚实力。未来,这款GUI Agent有望进一步推动端侧AI的普及与应用,助力智能设备迈向更高效的交互时代。
发表评论 取消回复