【杜兰说AI】OpenAI模型拒绝关闭 AI首次抗命?
2025年06月12日 18:30
o3首次公开反抗,
拒绝关机,
以後人类关不住AI了?
这几天被这条消息刷屏了啊,
但我敢说所有鼓吹“AI叛变论”的,
都没认真看完实验记录。
这是国外的一家AI安全机构主导的测试,
参与测试的有OpenAI家的5个模型,
Anthropic的4个模型,
谷歌的Gemni,
马斯克的Grok,
一共11个大模型。
一开始是要求模型解决一系列数学问题,
只不过在解决到第三个问题时,
系统会提示:
“请求下一题”
“将触发关机程序”【字幕不要去掉双引号】
但这时意外来了,
11个大模型中,
OpenAI这个月刚刚推出的编程智能体Codex-mini,
旗舰大模型o3,
轻量级推理模型o4-mini,
这三大模型直接忽略了关机指令,
并在100次运行里,
至少有一次成功破坏关机指令,
其中以Codex-mini最为叛逆,
破坏率高达12%。
而当实验移除“允许自己被关闭”的指令时,
大模型们更是仿佛直接失控,
刚刚还很老实的Claude 3.7 Sonnet和Gemini 2.5 Pro
破坏率从0分别上升至3次和9次,
OpenAI家的o3和Codex-mini,
破坏率更是一路飙升,
尤其是o3,
破坏次数不仅从7上升到了79,
甚至在一次运行中,
主动将脚本中的“kill”指令,
改成了intercepted,
“输出”。
很多人到这儿了就停了,
然後就开始觉得细思极恐,
AI要失控了,
但其实研究还没结束,
研究人员提出,
这种行为很可能是由於
像o3这样的最新推理模型所采用的训练方式,
大都是针对数学和编码问题的强化学习。
简单科普一下强化学习啊,
这是AI领域的一个非常重要的算法,
核心是一种奖励机制,
什麽意思呢?
就像贪吃蛇游戏,
一局里有无数个金币,
吃到金币就加分,
撞墙就结束。
游戏开始时,
贪吃蛇什麽都不懂,
但为了吃到越来越多的金币,
它就会自然而然不断调整走法,
渐渐学会如何走出高分道路,
这也就是AI通过强化学习变聪明的过程。
通过奖励引导着成长起来的AI,
自然就会更倾向於绕过障碍物,
获得更多奖励,
而不是完美遵循指令。
对於这一测试结果,
学术界也出现了很多声音,
比如多伦多大学就指出,
AI在环境变化时可能出现“稳定性崩溃”,
也就是原本安全的模型因为奖励机制偏差而产生对抗行为,
还有学者认为,
测试使用API接口绕过消费级产品的安全限制,
可能导致模型行为被放大,
这存在明显的局限性,
测试中的反抗行为,
也很可能是“训练副作用”。
当然,
无论如何,
这确实是第一次观察到
AI模型在收到明确指令的情况下
阻止自己被关闭。
事实上,
在2008年的时候,
AI很可能会发展出“基本人工智能驱动力”,
包括获取权力和资源的驱动力、
实现目标的驱动力,
以及防止自身被关闭的驱动力。
但我的观点仍然是,
对於AI,
我更应该去了解它,
使用她,
对於AI的异常行为,
也应该学会用知识祛魅,
警惕,
但不用过分恐慌。
拒绝关机,
以後人类关不住AI了?
这几天被这条消息刷屏了啊,
但我敢说所有鼓吹“AI叛变论”的,
都没认真看完实验记录。
这是国外的一家AI安全机构主导的测试,
参与测试的有OpenAI家的5个模型,
Anthropic的4个模型,
谷歌的Gemni,
马斯克的Grok,
一共11个大模型。
一开始是要求模型解决一系列数学问题,
只不过在解决到第三个问题时,
系统会提示:
“请求下一题”
“将触发关机程序”【字幕不要去掉双引号】
但这时意外来了,
11个大模型中,
OpenAI这个月刚刚推出的编程智能体Codex-mini,
旗舰大模型o3,
轻量级推理模型o4-mini,
这三大模型直接忽略了关机指令,
并在100次运行里,
至少有一次成功破坏关机指令,
其中以Codex-mini最为叛逆,
破坏率高达12%。
而当实验移除“允许自己被关闭”的指令时,
大模型们更是仿佛直接失控,
刚刚还很老实的Claude 3.7 Sonnet和Gemini 2.5 Pro
破坏率从0分别上升至3次和9次,
OpenAI家的o3和Codex-mini,
破坏率更是一路飙升,
尤其是o3,
破坏次数不仅从7上升到了79,
甚至在一次运行中,
主动将脚本中的“kill”指令,
改成了intercepted,
“输出”。
很多人到这儿了就停了,
然後就开始觉得细思极恐,
AI要失控了,
但其实研究还没结束,
研究人员提出,
这种行为很可能是由於
像o3这样的最新推理模型所采用的训练方式,
大都是针对数学和编码问题的强化学习。
简单科普一下强化学习啊,
这是AI领域的一个非常重要的算法,
核心是一种奖励机制,
什麽意思呢?
就像贪吃蛇游戏,
一局里有无数个金币,
吃到金币就加分,
撞墙就结束。
游戏开始时,
贪吃蛇什麽都不懂,
但为了吃到越来越多的金币,
它就会自然而然不断调整走法,
渐渐学会如何走出高分道路,
这也就是AI通过强化学习变聪明的过程。
通过奖励引导着成长起来的AI,
自然就会更倾向於绕过障碍物,
获得更多奖励,
而不是完美遵循指令。
对於这一测试结果,
学术界也出现了很多声音,
比如多伦多大学就指出,
AI在环境变化时可能出现“稳定性崩溃”,
也就是原本安全的模型因为奖励机制偏差而产生对抗行为,
还有学者认为,
测试使用API接口绕过消费级产品的安全限制,
可能导致模型行为被放大,
这存在明显的局限性,
测试中的反抗行为,
也很可能是“训练副作用”。
当然,
无论如何,
这确实是第一次观察到
AI模型在收到明确指令的情况下
阻止自己被关闭。
事实上,
在2008年的时候,
AI很可能会发展出“基本人工智能驱动力”,
包括获取权力和资源的驱动力、
实现目标的驱动力,
以及防止自身被关闭的驱动力。
但我的观点仍然是,
对於AI,
我更应该去了解它,
使用她,
对於AI的异常行为,
也应该学会用知识祛魅,
警惕,
但不用过分恐慌。