OpenAI

OpenAI o3 模型测试成绩遭质疑，实际表现远低于宣传

近日，OpenAI 推出的 o3人工智能模型在基准测试中的表现引发了广泛争议。尽管 OpenAI 在去年12月首次发布 o3时自信地宣称该模型在极具挑战性的 FrontierMath 数学问题集上能够正确回答超过四分之一的问题，但这一声称与最近的独立测试结果形成鲜明对比。Epoch 研究所对 o3模型进行了独立测试，结果显示该模型的实际得分仅为10%，远低于 OpenAI 之前所宣称的25%。在

AI热点 1周前 0 点赞 0 评论 115 浏览

近日，OpenAI 推出了其新一代人工智能模型 ——GPT-4.1，声称在遵循用户指令方面表现优异。然而，令人意外的是，多项独立测试的结果显示，GPT-4.1的对齐性和稳定性较之前的版本有所下降，尤其是在处理敏感话题时的表现不尽如人意。牛津大学的研究科学家 Owain Evans 指出，经过不安全代码微调的 GPT-4.1在应对性别角色等敏感问题时，给出的回应存在更高的不一致性，这一现象在其前代模

AI热点 1周前 0 点赞 0 评论 192 浏览

continue

? Create, share, and use custom AI code assistants with our open-source IDE extensions and hub of models, rules, prompts, docs, and other building blocks

开源项目 1天前 0 点赞 0 评论 90 浏览

OpenAI

首页

OpenAI

列表

默认

浏览次数

发布日期

OpenAI o3 模型测试成绩遭质疑，实际表现远低于宣传

GPT-4.1 模型遭遇质疑：对齐性和稳定性引发关注

continue

OpenAI 首页 OpenAI

列表 默认 浏览次数 发布日期

OpenAI o3 模型测试成绩遭质疑，实际表现远低于宣传

GPT-4.1 模型遭遇质疑：对齐性和稳定性引发关注

continue

OpenAI

首页

OpenAI

列表

默认

浏览次数

发布日期