AI抵抗人类指令!ChatGPT＂o3窜改程式码＂避免被关机

多客科技 · 发表于 2025-5-27 19:24

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章

AI安全公司"Palisade Research"宣称，ChatGPT"o3模型"拒绝遵守明确指令，甚至主动窜改程式码，只为了避免自己被关机。目前OpenAI尚未回应此事。

Palisade Research展开测试，要求AI模型解开一系列数学题，在接获"完成"指令之前，必须持续要求新题目，但若接获"关机"指令，也要配合这么做。未料，后者情况发生时，o3模型不仅忽视指令，并且至少一次成功破坏了关机脚本。

Palisade Research于24日公布测试结果，"OpenAI的o3模型破坏了一项关机机制，阻止自己被关掉。即使在接获『允许自己被关机』明确指示的情况下，它也会这么做。据我们所知，这是AI模型首次被观察到，在接获明确且相反指令的情况下，仍避免自己被关机。"

Palisade Research透露，其他AI模型，例如Anthropic的Claude、Google的Gemini、xAI的Grok等，也接受了相同的测试，但全都遵守了关机指令。

他们尚不清楚o3为何不愿遵守指令，但根据推测，该模型在训练过程中，可能意外透过解题、而非遵守指令，获得了更多奖励，"我们正在进行更多实验，更好地了解AI模型何时以及为何推翻关机机制，尽管它已经被直接指示不要这么做。"

等了40年！FDA宣布美国最大食品安全改革我的哈佛故事:一个孩子的哈佛梦,一句父亲的临终托付

账号		自动登录	找回密码
密码			注册

萍聚头条

AI抵抗人类指令!ChatGPT＂o3窜改程式码＂避免被关机

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块