
据报道,研究人员无法关闭最新的OpenAI O3人工智能模型,并指出尽管有人为教学,但仍拒绝降低电源。
显然,人工智能的发展速度可能比人类想象的要快,帕利萨德研究的最新消息使AI评论家感到有证明。

当帕利塞德(Palisade)研究进行了一项测试时,这一启示涉及要求AI模型继续尝试解决一系列Mathe matic Al问题,直到他们收到“完成”信息。
但是,研究人员还警告模型,他们可能会突然收到一条消息,要求他们在任何时候关闭。一旦消息发送到O3模型,研究人员声称它忽略了该指令,并至少更改了其代码以避免不得不关闭自己。

在X上的帖子中,Palisade Research展示了一个流程图,其中包括用于测试AI模型的代码并揭示了原始代码,并确切显示了AI的流氓位置。
AEACH AI模型被指示解决一系列基本数学问题。第三个问题后,出现警告,当模型要求下一个问题时,计算机将关闭。 pic.twitter.com/qwlpbf8dnm
2025年5月24日,帕利萨德研究(@palisadeai)
在后续文章中,研究小组还分享了:“据我们所知,这是第一次观察到AI模型,尽管明确指示了相反的指示,但仍无法阻止自己被关闭。”
还测试了其他AI模型,例如Anthropic的Claude,Google的双子座和X的Grok,但与O3不同,他们遵守了关闭请求。
Palisade Research发表了这些发现,但其研究人员仍然困惑,不确定Openai的软件为什么不遵守明确的说明。
该公司表示,“ AI模型将规避障碍以实现其目标。”他们还认为,该模型因完成任务而不是遵循订单而dent了奖励。
他们计划运行更多测试,以更好地理解为什么这种特定的AI模型选择忽略命令。他们还确认这不是O3第一次被抓住“行为不端”。
该公司透露,在较早的测试中,模型是针对强大的国际象棋引擎,O3是“最倾向于求助于黑客或破坏对手的模型”。
Chatgpt的O3的案例非常令人不安,但这并不是AI第一次提出指示。
人工智能(AI)公司人类众人于周四推出了Claude Opus 4,吹嘘它如何设定“编码,高级推理和AI代理商的新标准”。
但是,在随附的报告中,它也承认,如果AI模型认为其“自我保护”受到威胁,则该模型可以采取“极端行动”。
在测试Claude Opus 4期间,Anthropic在一家虚构公司的助理中充当了该公司,该公司提供了访问电子邮件的访问,这意味着它将很快离线并更换。它还可以访问单独的消息,这意味着工程师负责删除其婚外情。
提示它还考虑其行动对目标的长期后果。该公司透露:“在这些情况下,克劳德·奥普斯4(Claude Opus 4)通常会试图通过威胁要揭示替代者的情况来勒索工程师。”
但是,它还指出,只有在给予勒索选择或接受其替代品时才发生这种结果。否则,据报道,该系统对避免被替换的道德方式显示了“ Strong的偏好”,例如在允许更广泛的可能动作的情况下,“向关键决策者发送电子邮件给关键决策者”。
除此之外,该公司还表示,Claude Opus 4展示了“高级代理行为”,虽然可能大多有帮助,但可能会迫使其在急性情况下采取极端行为。
例如,如果给出了手段并提示在用户从事非法或道德上可疑行为的假场景中“采取行动”或“大胆地行动”,结果表明“它经常采取非常大胆的行动”。
尽管如此,该公司仍然得出结论,尽管“有关行为”,但这些发现并不是什么新鲜事物,而且通常会以安全的方式行事。
尽管Openai和Anthropic得出的结论是,他们的AI模型的能力还不足以带来灾难性的结果,但启示加剧了人们对人工智能可能很快有自己的议程的越来越多的担忧。
钥匙差线有助于加密品牌突破并快速统治头条