OpenAI 新推理模型被曝产生更多“幻觉”，o3 / o4-mini 性能与错误率一同提升-电闪软件站

本站 4 月 19 日消息，OpenAI 最新发布的 o3 和 o4-mini 模型在多个方面展现出业内领先的水准，不过，这两款模型依然无法摆脱“幻觉”问题 —— 甚至比以往发布的模型更加严重。

据外媒 TechCrunch 今日报道，幻觉问题一直是生成式 AI 发展过程中最难解决的挑战之一，即使是目前性能最优秀的模型也难以完全避免。过去，每一代新模型在降低幻觉频率方面通常都会取得小幅进步，但 o3 和 o4-mini 却打破了这一趋势。

根据 OpenAI 的内部测试，作为推理模型的 o3 和 o4-mini，出现幻觉的频率不仅超过了前代推理模型 o1、o1-mini 和 o3-mini，甚至还高于传统“非推理”模型（本站注：如 GPT-4o）。

OpenAI 在针对这两款模型发布的技术报告中表示：“要弄清楚随着推理模型规模的扩大，幻觉问题为何反而变得更加严重，还需要进一步研究。”报告指出，尽管 o3 和 o4-mini 在编程和数学等任务上的表现优于以往，但由于模型输出的答案总量增加，导致其既能作出更多准确判断，同时也不可避免地出现更多错误甚至幻觉。

在 OpenAI 设计的内部基准测试 PersonQA 中，o3 回答问题时出现幻觉的比例达到 33%，几乎是前代推理模型 o1 和 o3-mini 的两倍，后者的幻觉率分别为 16% 和 14.8%。在同一测试中，o4-mini 的表现更差，幻觉率高达 48%。

第三方机构 Transluce 的测试也印证了这一问题。这家非营利 AI 研究实验室发现，o3 在回答问题时经常会凭空捏造出某些“过程操作”。例如，Transluce 曾观察到，o3 声称自己在一台 2021 款 MacBook Pro 上“在 ChatGPT 之外”运行了代码，并将结果复制进了答案中。实际上，虽然 o3 拥有一部分工具访问权限，但并不具备执行这种操作的能力。

OpenAI 发言人 Niko Felix 表示：“解决幻觉问题是我们一直在推进的重点研究方向，我们也在不断努力提升模型的准确性与可靠性。”

OpenAI 新推理模型被曝产生更多“幻觉”，o3 / o4-mini 性能与错误率一同提升

1

滴滴宣布投入 20 亿元稳就业促消费，积极应对外部挑战

滴滴宣布投入 20 亿元稳就业促消费，积极应对外部挑战
2025/04/18

2

《半条命3》玩法技术剧情大揭秘，戈登·弗里曼故事将迎终章？

《半条命3》玩法技术剧情大揭秘，戈登·弗里曼故事将迎终章？
2025/04/20

3

老师脱让学生摸流片游戏：这类校园游戏对孩子教育的影响你了解吗？社会对此有何看法？

老师脱让学生摸流片游戏：这类校园游戏对孩子教育的影响你了解吗？社会对此有何看法？
2025/04/04

4

三星新专利曝光：折叠游戏掌机融合任天堂DS与PS Portal设计

三星新专利曝光：折叠游戏掌机融合任天堂DS与PS Portal设计
2025/04/08

5

蚂蚁庄园今日答案(每日更新) 蚂蚁庄园今日答案4月8日

蚂蚁庄园今日答案(每日更新) 蚂蚁庄园今日答案4月8日
2025/04/11

6

快手网页版登录入口

快手网页版登录入口
2025/04/15

8

在线设计平台 Canva 新增多项 AI 技能：图片生成、互动编程、电子表格等

在线设计平台 Canva 新增多项 AI 技能：图片生成、互动编程、电子表格等
2025/04/15

9

《中土世界》复仇女神系统：创意源于防二手，未来路在何方？

《中土世界》复仇女神系统：创意源于防二手，未来路在何方？
2025/04/19

10

零跑 B10 汽车交付节奏公布，目前正全力推进产能爬坡

零跑 B10 汽车交付节奏公布，目前正全力推进产能爬坡
2025/04/20

滴滴宣布投入 20 亿元稳就业促消费，积极应对外部挑战

戴尔首款 OLED 显示器 S3225QC 国行上市：31.6 英寸 4K 120Hz 面板 + AI 3D 空间音频，6499 元

日产一线与三线车型区别分析：如何根据需求选择适合的车型？

如何通过"18_XXXXXL56HGID"编号了解更多产品信息？你真的懂它吗？

小鸡宝宝考考你今天的答案是什么蚂蚁庄园小课堂答案汇总2025

ysl水蜜桃86满十八与88的色差与质地差异解析：如何根据肤色和场合选择？

部分 iPhone 用户反馈升级 iOS 18.4 后，遇到 CarPlay 功能异常

雷神AI智能眼镜来袭：内置语音助手+拍照，首发仅1799元起！

如何选择9.1免费网站NBA平台：最佳观赛体验的全面指南

无人一区二区的创新优势与挑战：如何理解无人化模式的前景与限制？