
OpenAI o3 模型测试成绩遭质疑,实际表现远低于宣传
近日,OpenAI 推出的 o3人工智能模型在基准测试中的表现引发了广泛争议。尽管 OpenAI 在去年12月首次发布 o3时自信地宣称该模型在极具挑战性的 FrontierMath 数学问题集上能够正确回答超过四分之一的问题,但这一声称与最近的独立测试结果形成鲜明对比。Epoch 研究所对 o3模型进行了独立测试,结果显示该模型的实际得分仅为10%,远低于 OpenAI 之前所宣称的25%。在
近日,OpenAI 推出的 o3人工智能模型在基准测试中的表现引发了广泛争议。尽管 OpenAI 在去年12月首次发布 o3时自信地宣称该模型在极具挑战性的 FrontierMath 数学问题集上能够正确回答超过四分之一的问题,但这一声称与最近的独立测试结果形成鲜明对比。
Epoch 研究所对 o3模型进行了独立测试,结果显示该模型的实际得分仅为10%,远低于 OpenAI 之前所宣称的25%。在 OpenAI 首席研究官 Mark Chen 的公开演示中,他表示 o3模型的内部测试结果十分优秀,远超竞争对手,后者在同一问题集上的正确率不足2%。然而,这个理想化的高分数可能是通过使用更强大计算资源的 o3版本实现的,而并非是上周正式发布的版本。
Epoch 在其报告中指出,测试结果的差异可能源于多种因素,包括 OpenAI 使用了更先进的计算框架和不同的测试条件。同时,该机构也提到,他们的评估是基于更新版本的 FrontierMath,这可能导致结果的不同。
此外,ARC Prize 基金会也发表声明,表示公开发布的 o3模型与他们早前测试的预发布版本有很大不同,公开版经过了针对聊天和产品使用的调整,且计算层级普遍较小。通常情况下,计算层级越大,基准测试得分越好。
虽然 o3模型未能完全达到 OpenAI 的测试标准,但这似乎并不影响其市场表现,因为 OpenAI 最近推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上已表现得更为出色。更令人期待的是,OpenAI 将在不久后推出更强大的 o3版本 ——o3-pro。
此次事件再一次警示公众,AI 基准测试的结果不应被完全信任,尤其是来自于有产品推出压力的公司。在竞争激烈的 AI 行业中,各大厂商为了争夺市场份额,往往急于推出新模型,而这也使得基准测试的争议日益增多。
发表评论 取消回复