AI热点 5 months ago • 183 Views • 0 Comments

OpenAI o3 模型测试成绩遭质疑，实际表现远低于宣传

AIbase基地

AIbase基地

Published 10318 Articles

ChatGPT APP

ChatGPT APP

0 seconds ago

近日，OpenAI 推出的 o3人工智能模型在基准测试中的表现引发了广泛争议。尽管 OpenAI 在去年12月首次发布 o3时自信地宣称该模型在极具挑战性的 FrontierMath 数学问题集上能够正确回答超过四分之一的问题，但这一声称与最近的独立测试结果形成鲜明对比。

Epoch 研究所对 o3模型进行了独立测试，结果显示该模型的实际得分仅为10%，远低于 OpenAI 之前所宣称的25%。在 OpenAI 首席研究官 Mark Chen 的公开演示中，他表示 o3模型的内部测试结果十分优秀，远超竞争对手，后者在同一问题集上的正确率不足2%。然而，这个理想化的高分数可能是通过使用更强大计算资源的 o3版本实现的，而并非是上周正式发布的版本。

Epoch 在其报告中指出，测试结果的差异可能源于多种因素，包括 OpenAI 使用了更先进的计算框架和不同的测试条件。同时，该机构也提到，他们的评估是基于更新版本的 FrontierMath，这可能导致结果的不同。

此外，ARC Prize 基金会也发表声明，表示公开发布的 o3模型与他们早前测试的预发布版本有很大不同，公开版经过了针对聊天和产品使用的调整，且计算层级普遍较小。通常情况下，计算层级越大，基准测试得分越好。

虽然 o3模型未能完全达到 OpenAI 的测试标准，但这似乎并不影响其市场表现，因为 OpenAI 最近推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上已表现得更为出色。更令人期待的是，OpenAI 将在不久后推出更强大的 o3版本 ——o3-pro。

此次事件再一次警示公众，AI 基准测试的结果不应被完全信任，尤其是来自于有产品推出压力的公司。在竞争激烈的 AI 行业中，各大厂商为了争夺市场份额，往往急于推出新模型，而这也使得基准测试的争议日益增多。

AIbase基地

AIbase基地

10318 Articles 1803482 Views 950300 Fans

Comment (0)

Chapter

1. GPT-4简介与注册指南

1.1 账号注册步骤

Recommended Articles

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0 seconds ago • AI热点

古尔曼：Meta 将于 2027 年推出双屏智能眼镜，以及真 AR 眼镜

古尔曼：Meta 将于 2027 年推出双屏智能眼镜，以及真 AR 眼镜

1 days ago • AI热点

全网都在玩 nano banana 生成手办，但这个 AI 真能给你做出来

全网都在玩 nano banana 生成手办，但这个 AI 真能给你做出来

1 days ago • AI热点

刚刚，Gemini「灵魂人物」官宣加盟xAI！马斯克火速转推背书

刚刚，Gemini「灵魂人物」官宣加盟xAI！马斯克火速转推背书

1 days ago • AI热点

老黄9亿美元再投AI Infra，这次直接打包带走CEO和核心技术

老黄9亿美元再投AI Infra，这次直接打包带走CEO和核心技术

1 days ago • AI热点

靠10万+粉丝，北漂插画师秒贷款！华为全栈AI加速，让银行及时看见

靠10万+粉丝，北漂插画师秒贷款！华为全栈AI加速，让银行及时看见

1 days ago • AI热点

拼多多的‘本分’哲学：为何不碰网贷与AI？

拼多多的‘本分’哲学：为何不碰网贷与AI？

2 days ago • AI热点

特朗普携老黄奥特曼访英，重磅成果揭秘！烧千亿建英国AI星际之门

特朗普携老黄奥特曼访英，重磅成果揭秘！烧千亿建英国AI星际之门

3 days ago • AI热点

Popular Tags

发现《逍遥叹》舞蹈教学专利 MCP教程入门六月翩然而至发现《Wake (Live)》光子技术精典歌曲 MenloVentures 开发者模式

Popular Authors

AI中国

AI中国

10318 Articles 95.03万 Followers

钛媒体APP

钛媒体APP

1402 Articles 0 Followers

IT之家

IT之家

1221 Articles 5.64K Followers

人人都是产品经理

人人都是产品经理

1125 Articles 5.87万 Followers

36氪

36氪

962 Articles 5.63K Followers