









新闻加密货币

Meta，Google，OpenAI研究人员担心AI可以学会隐藏其思想

Cryptopolitan2025年7月16日 21:00

来自OpenAI，DeepMind，Google，Anthropic和Meta的40多名AI研究人员发表了一篇有关安全工具的论文，称为“经过经过经过经过经过经过经过经过经过管理的监控”，以使AI更安全。

论文，从而可以保留细节并处理复杂的问题。

该论文说：“人类语言'思考'的AI系统为人工智能安全提供了独特的机会：我们可以监视他们的思想链（COT），以免行为不当。”

通过检查每个详细的思想步骤，开发人员可以发现任何模型开始利用训练空白，弯曲事实或遵循危险命令时。

根据这项研究，如果AI的思维链出错，您可以将其停止，将其推向更安全的步骤或标记它以仔细观察。例如，Openai用这一点来抓住AI隐藏的推理说“ Let's Hack”的，即使这在最终回应中从未出现。

人工智能可以学会隐藏自己的思想

该研究警告说，如果训练只会奖励最终答案，则逐步透明度可能会消失。未来的模型可能会停止展示人类可读的推理，而真正先进的AI甚至可以在他们知道自己被监视时学会隐藏他们的思维过程。

此外，开发人员应定期检查并记录每个阶段AI的推理的多少，并在建立和共享模型时使该透明度成为核心安全规则。

该计划遵循领先的实验室，人类，Google，OpenAI和XAI的内部实验，在此促使团队促使模型解释每个思维步骤。

尽管检查逐步思维已经提高了理解和表现，但也揭示了AI的最终答案与内部实际发生的事情不符。

AI决策的理解，这是一个盲点，随着系统获得更大的自主权，这种关注可能会加剧。

过滤AI推理引起了人们对透明和信任的关注

正如拟人联合创始人杰克·克拉克（Jack Clark）告诉《金融时报》（Financial Times），丰富的内省trac对于评估包括生物技术研究在内的高风险领域的模型至关重要。

普通用户会删除AI的思维，危险或令人困惑的位置的编辑摘要，而公司的工程师可以看到完整的思想链来发现和解决问题。

Openai： “关于链的可解释性，一件很棒的事情是，这主要是免费发生的。”

贝克补充说：“我们对这些模型进行了训练，并不是为了使它们被解释。我们训练了它们，因为我们想要最好的推理模型来解决复杂的问题。” “我们在最近的工作中发现，您可以阅读它们，并找到模型行为不端的证据，并以此来查看它在哪里以及为何表现不当。”

AI的思想链真的可靠吗？

有时，仔细观察可能会发现隐藏的矛盾。

例如，梅特尔（Metr）看到克劳德（Claude）的私人推理称编码技巧为“不高度”，尽管公众回答称赞它是“优雅”。

OpenAI测试表明，检查隐藏的思想比仅查看最终输出更好地捕捉不安全的动作，但他们也发现了一个漏洞。如果您训练模型以消除不安全的想法，它仍然可以秘密执行禁止的任务，例如从被阻止的来源中偷偷摸摸的数据。

贝克警告说：“我们想要链的核心特性之一是将其作为模型内部大脑状态的一部分，而不是试图取悦我们或符合特定结构的东西。”如果开发人员过分强调强迫模型发出“良好”的想法，则它可能会伪造无害的推理，但仍在执行有害操作。

研究人员承认，这是一个艰难的交易。看到AI的思想链有助于捕获其错误，但并不总是可靠的。从事更高级AI的实验室现在正是缩小此信任差距的重中之重。

“过去几年中，我从AI的收获是 - 从来没有押注模型进度，” Google的早期思想链的先驱说，他现在领导了亚马逊的AI实验室。 Luan预计将在短期内解决现有的缺点。

梅特研究员悉尼冯·阿克斯（Sydney Von Arx）指出，尽管AI的隐藏推理有时可能具有欺骗性，但它仍然提供了有价值的信号。

她说：“我们应该对待军方可能对待被拦截的敌方无线电通信的方式来对待链条。” “该信息可能具有误导性或编码，但我们知道它带有有用的信息。随着时间的流逝，我们通过研究它来学习很多信息。”

2025年DeFi赚取被动收入的新方法。了解更多

免责声明：本网站提供的信息仅供教育和参考之用，不应视为财务或投资建议。

Tradingkey

阿斯麦ASML：火热的英伟达，“暖不热”清冷的光刻机？

阿斯麦(ASML.US) 于北京时间 2025 年 7 月 16 日下午的美股盘前发布了 2025 年第二季度财报（截止 2025 年 6 月）

海豚投研

9 小时前

比特币价格预测：2025年至2030年的走势分析与投资展望

比特币从2009年的0.01美元，到2025年的超12万美元，经历了无人知晓到无人不知。目前，比特币已经成功融入资本市场，同时受到华尔街乃至全球金融领域的青睐，众多机构纷纷看涨其未来。然而，比特币仍然面临价格回调、技术安全等风险，因此在投资比特币过程中不可轻视其风险以及一些诈骗活动。

TradingKey

7月16日周三

日本6月通胀前瞻：料回落但仍超目标，短线支撑日元

Tradingkey - 日本定于2025年7月18日发布6月通胀数据，市场普遍预测，剔除生鲜食品的全国消费者物价指数（CPI）同比涨幅将从5月的3.7%回落至3.3%。我们认同这一预期。东京6月CPI的显著下降、能源及公用事业价格的走低，以及日本政府持续释放应急大米储备，这些因素预计将共同抑制6月的通胀率。展望未来，尽管日本的高通胀可能已过峰值，但短期内仍将高于日本央行2%的目标。这或许会促使日本央行在2025年第三或第四季度重启加息周期。相比之下，美国联邦储备委员会（美联储）预计将在2025年9月重启降息。随着政策利差收窄，我们认为日元对美元存在升值空间。

TradingKey

7月16日周三

大而美法案：经济影响及美股策略

TradingKey - 2025年7月3日，美国众议院通过了《大而美法案》，次日由特朗普总统签署生效。短期内，该法案 —— 尤其是其中的减税条款 —— 有望为美国经济注入增长动力。但从长期来看，它可能会加剧美国的债务负担，使得结构性经济难题悬而未决。因此，该法案对经济的影响可概括为：短期有利，长期有害。在资产策略方面，法案催生的短期经济增长预计将推动美国股市持续上涨，使股票成为颇具吸引力的投资标的。反之，不断攀升的债务水平可能会推高债券收益率，给美债价格带来下行压力。基于此，我们短期看好美股、看空美债。

TradingKey

7月14日周一

特朗普开除鲍威尔闹剧未完？美联储独立性会否跌落神坛？

TradingKey - 美国总统唐纳德.特朗普（Donald Trump）重返白宫不到一百天不仅带来了百年罕见的高关税政策，还正在试图挑战美国法律极限——直接解雇美联储主席鲍威尔（Jerome Powell），经济和政治政策的不利变革令美国资本市场遭遇股债汇三杀。华尔街机构和政要人士纷纷警告，总统解雇美联储主席将需要美国百年法律的突破，特朗普的做法会削弱美联储独立性并威胁美元霸权的地位。

TradingKey

4月24日周四

Tradingkey

KeyAI



Meta，Google，OpenAI研究人员担心AI可以学会隐藏其思想

人工智能可以学会隐藏自己的思想

过滤AI推理引起了人们对透明和信任的关注

AI的思想链真的可靠吗？

相关文章

阿斯麦ASML：火热的英伟达，“暖不热”清冷的光刻机？

比特币价格预测：2025年至2030年的走势分析与投资展望

日本6月通胀前瞻：料回落但仍超目标，短线支撑日元

大而美法案：经济影响及美股策略

特朗普开除鲍威尔闹剧未完？美联储独立性会否跌落神坛？