tradingkey.logo

Meta,Google,OpenAI研究人员担心AI可以学会隐藏其思想

Cryptopolitan2025年7月16日 21:00

来自OpenAI,DeepMind,Google,Anthropic和Meta的40多名AI研究人员发表了一篇有关安全工具的论文,称为“经过经过经过经过经过经过经过经过经过管理的监控”,以使AI更安全。 

论文从而可以保留细节并处理复杂的问题。

该论文说:“人类语言'思考'的AI系统为人工智能安全提供了独特的机会:我们可以监视他们的思想链(COT),以免行为不当。”

通过检查每个详细的思想步骤,开发人员可以发现任何模型开始利用训练空白,弯曲事实或遵循危险命令时。

根据这项研究,如果AI的思维链出错,您可以将其停止,将其推向更安全的步骤或标记它以仔细观察。例如,Openai用这一点来抓住AI隐藏的推理说“ Let's Hack”的,即使这在最终回应中从未出现。

人工智能可以学会隐藏自己的思想

该研究警告说,如果训练只会奖励最终答案,则逐步透明度可能会消失。未来的模型可能会停止展示人类可读的推理,而真正先进的AI甚至可以在他们知道自己被监视时学会隐藏他们的思维过程。

此外,开发人员应定期检查并记录每个阶段AI的推理的多少,并在建立和共享模型时使该透明度成为核心安全规则。

该计划遵循领先的实验室,人类,Google,OpenAI和XAI的内部实验,在此促使团队促使模型解释每个思维步骤。

尽管检查逐步思维已经提高了理解和表现,但也揭示了AI的最终答案与内部实际发生的事情不符。

AI决策的理解,这是一个盲点,随着系统获得更大的自主权,这种关注可能会加剧。

过滤AI推理引起了人们对透明和信任的关注

正如拟人联合创始人杰克·克拉克(Jack Clark)告诉《金融时报》(Financial Times) ,丰富的内省trac对于评估包括生物技术研究在内的高风险领域的模型至关重要。

普通用户会删除AI的思维,危险或令人困惑的位置的编辑摘要,而公司的工程师可以看到完整的思想链来发现和解决问题。

Openai: “关于链的可解释性,一件很棒的事情是,这主要是免费发生的。”

贝克补充说:“我们对这些模型进行了训练,并不是为了使它们被解释。我们训练了它们,因为我们想要最好的推理模型来解决复杂的问题。” “我们在最近的工作中发现,您可以阅读它们,并找到模型行为不端的证据,并以此来查看它在哪里以及为何表现不当。”

AI的思想链真的可靠吗?

有时,仔细观察可能会发现隐藏的矛盾。

例如,梅特尔(Metr)看到克劳德(Claude)的私人推理称编码技巧为“不高度”,尽管公众回答称赞它是“优雅”。

OpenAI测试表明,检查隐藏的思想比仅查看最终输出更好地捕捉不安全的动作,但他们也发现了一个漏洞。如果您训练模型以消除不安全的想法,它仍然可以秘密执行禁止的任务,例如从被阻止的来源中偷偷摸摸的数据。

贝克警告说:“我们想要链的核心特性之一是将其作为模型内部大脑状态的一部分,而不是试图取悦我们或符合特定结构的东西。”如果开发人员过分强调强迫模型发出“良好”的想法,则它可能会伪造无害的推理,但仍在执行有害操作。

研究人员承认,这是一个艰难的交易。看到AI的思想链有助于捕获其错误,但并不总是可靠的。从事更高级AI的实验室现在正是缩小此信任差距的重中之重。

“过去几年中,我从AI的收获是 - 从来没有押注模型进度,” Google的早期思想链的先驱说,他现在领导了亚马逊的AI实验室。 Luan预计将在短期内解决现有的缺点。

梅特研究员悉尼冯·阿克斯(Sydney Von Arx)指出,尽管AI的隐藏推理有时可能具有欺骗性,但它仍然提供了有价值的信号。

她说:“我们应该对待军方可能对待被拦截的敌方无线电通信的方式来对待链条。” “该信息可能具有误导性或编码,但我们知道它带有有用的信息。随着时间的流逝,我们通过研究它来学习很多信息。”

2025年DeFi赚取被动收入的新方法。了解更多

免责声明:本网站提供的信息仅供教育和参考之用,不应视为财务或投资建议。
Tradingkey

相关文章

Tradingkey
tradingkey.logo
tradingkey.logo
日内数据由路孚特(Refinitiv)提供,并受使用条款约束。历史及当前收盘数据均由路孚特提供。所有报价均以当地交易所时间为准。美股报价的实时最后成交数据仅反映通过纳斯达克报告的交易。日内数据延迟至少15分钟或遵循交易所要求。
* 参考、分析和交易策略由第三方提供商Trading Central提供,观点基于分析师的独立评估和判断,未考虑投资者的投资目标和财务状况。
风险提示:我们的网站和移动应用程序仅提供关于某些投资产品的一般信息。Finsights 不提供财务建议或对任何投资产品的推荐,且提供此类信息不应被解释为 Finsights 提供财务建议或推荐。
投资产品存在重大投资风险,包括可能损失投资的本金,且可能并不适合所有人。投资产品的过去表现并不代表其未来表现。
Finsights 可能允许第三方广告商或关联公司在我们的网站或移动应用程序的任何部分放置或投放广告,并可能根据您与广告的互动情况获得报酬。
© 版权所有: FINSIGHTS MEDIA PTE. LTD. 版权所有
KeyAI