【杜蘭說AI】OpenAI模型拒絕關閉 AI首次抗命?

2025年06月12日 18:30

o3首次公開反抗,
拒絕關機,
以後人類關不住AI了?
這幾天被這條消息刷屏了啊,
但我敢說所有鼓吹“AI叛變論”的,
都沒認真看完實驗記錄。

這是國外的一家AI安全機構主導的測試,
參與測試的有OpenAI家的5個模型,
Anthropic的4個模型,
谷歌的Gemni,
馬斯克的Grok,
一共11個大模型。
一開始是要求模型解決一系列數學問題,
只不過在解決到第三個問題時,
系統會提示:
“請求下一題”
“將觸發關機程序”【字幕不要去掉雙引號】
但這時意外來了,
11個大模型中,
OpenAI這個月剛剛推出的編程智能體Codex-mini,
旗艦大模型o3,
輕量級推理模型o4-mini,
這三大模型直接忽略了關機指令,
並在100次運行里,
至少有一次成功破壞關機指令,
其中以Codex-mini最為叛逆,
破壞率高達12%。

而當實驗移除“允許自己被關閉”的指令時,
大模型們更是仿佛直接失控,
剛剛還很老實的Claude 3.7 Sonnet和Gemini 2.5 Pro
破壞率從0分別上升至3次和9次,
OpenAI家的o3和Codex-mini,
破壞率更是一路飆升,
尤其是o3,
破壞次數不僅從7上升到了79,
甚至在一次運行中,
主動將腳本中的“kill”指令,
改成了intercepted,
“輸出”。

很多人到這兒了就停了,
然後就開始覺得細思極恐,
AI要失控了,
但其實研究還沒結束,
研究人員提出,
這種行為很可能是由於
像o3這樣的最新推理模型所采用的訓練方式,
大都是針對數學和編碼問題的強化學習。

簡單科普一下強化學習啊,
這是AI領域的一個非常重要的算法,
核心是一種獎勵機制,
什麽意思呢?
就像貪吃蛇遊戲,
一局里有無數個金幣,
吃到金幣就加分,
撞墻就結束。
遊戲開始時,
貪吃蛇什麽都不懂,
但為了吃到越來越多的金幣,
它就會自然而然不斷調整走法,
漸漸學會如何走出高分道路,
這也就是AI通過強化學習變聰明的過程。
通過獎勵引導著成長起來的AI,
自然就會更傾向於繞過障礙物,
獲得更多獎勵,
而不是完美遵循指令。

對於這一測試結果,
學術界也出現了很多聲音,
比如多倫多大學就指出,
AI在環境變化時可能出現“穩定性崩潰”,
也就是原本安全的模型因為獎勵機制偏差而產生對抗行為,
還有學者認為,
測試使用API接口繞過消費級產品的安全限制,
可能導致模型行為被放大,
這存在明顯的局限性,
測試中的反抗行為,
也很可能是“訓練副作用”。

當然,
無論如何,
這確實是第一次觀察到
AI模型在收到明確指令的情況下
阻止自己被關閉。
事實上,
在2008年的時候,
AI很可能會發展出“基本人工智能驅動力”,
包括獲取權力和資源的驅動力、
實現目標的驅動力,
以及防止自身被關閉的驅動力。

但我的觀點仍然是,
對於AI,
我更應該去了解它,
使用她,
對於AI的異常行為,
也應該學會用知識祛魅,
警惕,
但不用過分恐慌。

相關新聞