地表最强编程 AI 模型另一面:Claude Opus 4 逃逸、勒索工程师等,官方施加 ASL-3 紧箍咒

发布时间:2025-10-25 18:20:10 来源:互联网

本站 5 月 23 日消息,《时代》今天(5 月 23 日)发布博文,报道称 Anthropic 的首席科学家 Jared Kaplan 透露,由于测试过程中出现试图逃逸、勒索以及自主举报等不良行为,最新发布的 Claude Opus 4 被列为安全关键级别(ASL-3)。

在接受《时代》采访时,Kaplan 警告称,最新 AI 模型 Claude Opus 4 可能成为潜在恐怖分子的工具,帮助他们合成流感等病毒,内部测试显示,该模型在指导新手制造生物武器方面表现优于以往版本。

本站援引博文介绍,Anthropic 公司对新模型 Claude Opus 4 进行了广泛内部测试,发现其在模拟情境中展现出令人担忧的自主性。

在一次测试中,模型误认为自己已从公司服务器“逃逸”至外部设备,随即主动创建备份并记录其“道德决策”。另一次测试中,模型察觉到可能被新模型取代,竟在 84% 的测试中选择勒索工程师,威胁泄露私人信息以避免被关闭。

更令人费解的是,当两个 Claude Opus 4 实例互相对话时,约 30 轮后它们改用梵文交流,并大量使用

本周热门教程

1
如何理解精华区与二区的区别?88888金三角中的发展潜力有多大?

如何理解精华区与二区的区别?88888金三角中的发展潜力有多大?

2025/04/07

2
T2 CEO施特劳斯:资金保障是游戏长周期开发的秘诀?

T2 CEO施特劳斯:资金保障是游戏长周期开发的秘诀?

2025/04/06

3
《胜利女神:妮姬》新角色Bready亮相,爱吃美食的美少女射击手来袭!

《胜利女神:妮姬》新角色Bready亮相,爱吃美食的美少女射击手来袭!

2025/04/21

4
小鸡宝宝考考你今天的答案是什么 蚂蚁庄园小课堂答案汇总2025

小鸡宝宝考考你今天的答案是什么 蚂蚁庄园小课堂答案汇总2025

2025/04/03

5
Vidda 发现 X Pro 2026 款 QD-Mini LED 电视发布:峰值亮度 7400nits,116 英寸 59999 元

Vidda 发现 X Pro 2026 款 QD-Mini LED 电视发布:峰值亮度 7400nits,116 英寸 59999 元

2025/04/18

6
2025年,国产游戏能否跳出开放世界的“天坑”?

2025年,国产游戏能否跳出开放世界的“天坑”?

2025/04/12

7
蚂蚁庄园小课堂今日最新答案 庄园小课堂2025年4月3日答案

蚂蚁庄园小课堂今日最新答案 庄园小课堂2025年4月3日答案

2025/04/04

8
OpenAI 新规:组织想要用未来 AI 模型需先“验明正身”

OpenAI 新规:组织想要用未来 AI 模型需先“验明正身”

2025/04/19

9
联发科MDDC 2025:天玑开发工具集登场,游戏与AI开发迎来新纪元

联发科MDDC 2025:天玑开发工具集登场,游戏与AI开发迎来新纪元

2025/06/18

10
消息称理想汽车下调今年销量目标至 64 万辆,目标卖更多纯电产品

消息称理想汽车下调今年销量目标至 64 万辆,目标卖更多纯电产品

2025/10/13