OpenAI 更新《准备框架》:聚焦识别和缓解具体风险、细化能力分类,更好应对 AI 安全挑战

发布时间:2025-04-29 11:00:48 来源:互联网

本站 4 月 16 日消息,OpenAI 公司今天(4 月 16 日)发布博文,宣布为更好追踪和应对前沿 AI 能力可能带来的严重危害风险,发布新版《准备框架》(Preparedness Framework)。

本站注:《准备框架》是 OpenAI 在开发和部署环节,用于评估 AI 模型安全性的内部系统。

新框架通过更聚焦的方式,识别并缓解具体风险,同时强化风险最小化的要求,为组织如何评估、治理和披露安全措施提供明确指引。OpenAI 还承诺,随着技术进步,将投入更多资源,确保准备工作更具行动力、严谨性和透明度。

新框架为高风险能力设定了清晰的优先级标准,通过结构化的风险评估流程,判断某项前沿能力是否可能导致严重危害。每项能力根据定义标准被归类,并追踪符合五项关键标准的能力。

此外,框架引入了更细化的能力分类,包括追踪类别(Tracked Categories)、网络安全能力(Cybersecurity capabilities)和 AI 自我改进能力(AI Self-improvement capabilities)等。

OpenAI 认为,这些领域将带来 AI 在科学、工程和研究中最具变革性的益处。同时,新增的研究类别(Research Categories)涵盖可能造成严重危害但尚未达到追踪标准的领域,如长距离自主性(Long-range Autonomy)、故意低表现(Sandbagging)和自主复制与适应(Autonomous Replication and Adaptation)等。

框架进一步明确了能力等级,简化为“高能力”(High capability)和“关键能力”(Critical capability)两个门槛。无论哪一等级,在开发和部署前均需采取足够的安全措施,以降低严重危害风险。

OpenAI 内部的安全顾问小组(Safety Advisory Group)负责审查这些措施,并向领导层提出建议。此外,框架引入了可扩展的评估机制,支持更频繁的测试,并通过详细的 Safeguards Reports 报告安全措施的设计强度和验证效果。若其他 AI 开发者发布缺乏同等安全措施的高风险系统,OpenAI 可能调整自身要求,但会先确认风险形势变化,公开承认调整,确保不增加整体风险。

本周热门教程

1
戴尔首款 OLED 显示器 S3225QC 国行上市:31.6 英寸 4K 120Hz 面板 + AI 3D 空间音频,6499 元

戴尔首款 OLED 显示器 S3225QC 国行上市:31.6 英寸 4K 120Hz 面板 + AI 3D 空间音频,6499 元

2025/04/18

2
滴滴宣布投入 20 亿元稳就业促消费,积极应对外部挑战

滴滴宣布投入 20 亿元稳就业促消费,积极应对外部挑战

2025/04/18

3
崩坏星穹铁道星铁world活动怎么玩-崩坏星穹铁道星铁world活动玩法介绍

崩坏星穹铁道星铁world活动怎么玩-崩坏星穹铁道星铁world活动玩法介绍

2025/04/18

4
三星球形投影机器人专利公示,变革家庭娱乐

三星球形投影机器人专利公示,变革家庭娱乐

2025/04/15

5
崩坏星穹铁道风堇立绘图片-崩坏星穹铁道风堇高清立绘壁纸图片大全

崩坏星穹铁道风堇立绘图片-崩坏星穹铁道风堇高清立绘壁纸图片大全

2025/04/18

6
世界最高双层悬索桥:我国“狮子洋大桥”索塔突破 100 米

世界最高双层悬索桥:我国“狮子洋大桥”索塔突破 100 米

2025/04/05

7
《刺客信条:影》火爆上线,创系列新高,延期发售策略显明智?

《刺客信条:影》火爆上线,创系列新高,延期发售策略显明智?

2025/04/15

8
惠普暗影精灵 11 台式机新增“i7-14700F + 32G + 1T + RTX5070”配置售 13999 元

惠普暗影精灵 11 台式机新增“i7-14700F + 32G + 1T + RTX5070”配置售 13999 元

2025/04/03

9
开放空间樱花廊道怎么过-开放空间樱庭世界昼樱花廊道副本速通攻略

开放空间樱花廊道怎么过-开放空间樱庭世界昼樱花廊道副本速通攻略

2025/04/04

10
遮天三部曲境界等级划分表一览

遮天三部曲境界等级划分表一览

2025/04/15