OpenAI 发布并开源医疗测试基准 HealthBench,旨在更好地衡量 AI 系统在医疗健康领域能力

发布时间:2025-07-11 18:06:43 来源:互联网

本站 5 月 13 日消息,OpenAI 今日宣布推出了一个专门面向医疗大模型的测试评估集 ——HealthBench 并开源,旨在更好地衡量 AI 系统在医疗健康领域能力。

与以往测试集不同的是,HealthBench的 5000 段核心测试对话,由来自 60 个国家 / 地区的 26 个专业 262 名医生打造,极大增强了该测试集的难度、真实性以及丰富度。

与以前的狭窄基准不同,HealthBench 通过 48562 个独特的医生编写的评分标准进行有意义的开放式评估,涵盖多个健康背景(例如,紧急情况、全球健康)和行为维度(例如,准确性、遵循指示、沟通)。

此外,HealthBench采用了多轮对话测试,而不是简单的答题或选择题模式。本站注意到,测试数据显示大模型在医疗保健领域的表现有了显著提升。例如,从之前的 GPT-3.5Turbo 的 16% 到 GPT-4o 的 32%,再到 o3 的 60%,整体性能有了显著进步。尤其是小型模型的进步更为突出,GPT-4.1nano 不仅在性能上超越了 GPT-4o,而且成本降低了 25 倍。

参考资料:

  • 《HealthBench: Evaluating Large Language ModelsTowards Improved Human Health》

本周热门教程

1
三星官宣 5 月 13 日举行新品发布会,预计带来超薄旗舰 Galaxy S25 Edge

三星官宣 5 月 13 日举行新品发布会,预计带来超薄旗舰 Galaxy S25 Edge

2025/06/02

2
Intel 18A工艺获积极进展,或将成为任天堂Switch 3代工厂?

Intel 18A工艺获积极进展,或将成为任天堂Switch 3代工厂?

2025/06/06

3
消息称三星将于 6 月推出 115 英寸 RGB Micro LED 电视,隶属 Neo QLED TV 超高端产品线

消息称三星将于 6 月推出 115 英寸 RGB Micro LED 电视,隶属 Neo QLED TV 超高端产品线

2025/04/11

4
遮天等级境界划分-遮天等级境界排行

遮天等级境界划分-遮天等级境界排行

2025/04/15

5
重返未来1999指端的星帷活动怎么参与-重返未来1999指端的星帷活动入口地址

重返未来1999指端的星帷活动怎么参与-重返未来1999指端的星帷活动入口地址

2025/04/17

6
CounterPoint 报告 2024Q4 全球智能手机出货量:苹果市占 23%,狂揽 54% 收入

CounterPoint 报告 2024Q4 全球智能手机出货量:苹果市占 23%,狂揽 54% 收入

2025/04/12

7
FitGirl Repacks受用户慷慨捐赠,盗版游戏平台关闭捐款渠道引热议

FitGirl Repacks受用户慷慨捐赠,盗版游戏平台关闭捐款渠道引热议

2025/04/12

8
因韩国电动汽车销量放缓,消息称安森美停止当地富川 SiC 工厂投资

因韩国电动汽车销量放缓,消息称安森美停止当地富川 SiC 工厂投资

2025/04/19

9
快手高管变动!直播与游戏业务掌舵人付驰离职,李欢接任新帅位

快手高管变动!直播与游戏业务掌舵人付驰离职,李欢接任新帅位

2025/04/18

10
蚂蚁庄园今天正确答案 蚂蚁庄园今天正确答案已更新4月10日

蚂蚁庄园今天正确答案 蚂蚁庄园今天正确答案已更新4月10日

2025/04/17