来自OpenAI,DeepMind,Google,Anthropic和Meta的40多名AI研究人员发表了一篇有关安全工具的论文,称为“经过经过经过经过经过经过经过经过经过管理的监控”,以使AI更安全。
论文,从而可以保留细节并处理复杂的问题。
该论文说:“人类语言'思考'的AI系统为人工智能安全提供了独特的机会:我们可以监视他们的思想链(COT),以免行为不当。”
通过检查每个详细的思想步骤,开发人员可以发现任何模型开始利用训练空白,弯曲事实或遵循危险命令时。
根据这项研究,如果AI的思维链出错,您可以将其停止,将其推向更安全的步骤或标记它以仔细观察。例如,Openai用这一点来抓住AI隐藏的推理说“ Let's Hack”的,即使这在最终回应中从未出现。
该研究警告说,如果训练只会奖励最终答案,则逐步透明度可能会消失。未来的模型可能会停止展示人类可读的推理,而真正先进的AI甚至可以在他们知道自己被监视时学会隐藏他们的思维过程。
此外,开发人员应定期检查并记录每个阶段AI的推理的多少,并在建立和共享模型时使该透明度成为核心安全规则。
该计划遵循领先的实验室,人类,Google,OpenAI和XAI的内部实验,在此促使团队促使模型解释每个思维步骤。
尽管检查逐步思维已经提高了理解和表现,但也揭示了AI的最终答案与内部实际发生的事情不符。
AI决策的理解,这是一个盲点,随着系统获得更大的自主权,这种关注可能会加剧。
正如拟人联合创始人杰克·克拉克(Jack Clark)告诉《金融时报》(Financial Times) ,丰富的内省trac对于评估包括生物技术研究在内的高风险领域的模型至关重要。
普通用户会删除AI的思维,危险或令人困惑的位置的编辑摘要,而公司的工程师可以看到完整的思想链来发现和解决问题。
Openai: “关于链的可解释性,一件很棒的事情是,这主要是免费发生的。”
贝克补充说:“我们对这些模型进行了训练,并不是为了使它们被解释。我们训练了它们,因为我们想要最好的推理模型来解决复杂的问题。” “我们在最近的工作中发现,您可以阅读它们,并找到模型行为不端的证据,并以此来查看它在哪里以及为何表现不当。”
有时,仔细观察可能会发现隐藏的矛盾。
例如,梅特尔(Metr)看到克劳德(Claude)的私人推理称编码技巧为“不高度”,尽管公众回答称赞它是“优雅”。
OpenAI测试表明,检查隐藏的思想比仅查看最终输出更好地捕捉不安全的动作,但他们也发现了一个漏洞。如果您训练模型以消除不安全的想法,它仍然可以秘密执行禁止的任务,例如从被阻止的来源中偷偷摸摸的数据。
贝克警告说:“我们想要链的核心特性之一是将其作为模型内部大脑状态的一部分,而不是试图取悦我们或符合特定结构的东西。”如果开发人员过分强调强迫模型发出“良好”的想法,则它可能会伪造无害的推理,但仍在执行有害操作。
研究人员承认,这是一个艰难的交易。看到AI的思想链有助于捕获其错误,但并不总是可靠的。从事更高级AI的实验室现在正是缩小此信任差距的重中之重。
“过去几年中,我从AI的收获是 - 从来没有押注模型进度,” Google的早期思想链的先驱说,他现在领导了亚马逊的AI实验室。 Luan预计将在短期内解决现有的缺点。
梅特研究员悉尼冯·阿克斯(Sydney Von Arx)指出,尽管AI的隐藏推理有时可能具有欺骗性,但它仍然提供了有价值的信号。
她说:“我们应该对待军方可能对待被拦截的敌方无线电通信的方式来对待链条。” “该信息可能具有误导性或编码,但我们知道它带有有用的信息。随着时间的流逝,我们通过研究它来学习很多信息。”
2025年DeFi赚取被动收入的新方法。了解更多