测试基准

首页

测试基准

列表

默认

浏览次数

发布日期

刚刚，OpenAI开源BrowseComp，重塑Agent浏览器评测

声明:本文来自于微信公众号 AIGC开放社区，作者:AIGC开放社区，授权站长之家转载发布。今天凌晨2点，OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度，连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0，即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型Deep Re

AI热点 1周前 0 点赞 0 评论 127 浏览

测试基准 首页 测试基准

列表 默认 浏览次数 发布日期

刚刚，OpenAI开源BrowseComp，重塑Agent浏览器评测

测试基准

首页

测试基准

列表

默认

浏览次数

发布日期