
周五,OpenAI 宣布发布新的人工智能模型系列,称为 o3。该公司声称新产品比包括 o1 在内的之前型号更先进。据这家初创公司称,这些进步源于扩展测试时计算的改进(这是近几个月来探讨的一个主题),以及引入用于训练这些模型的新安全范例。
作为其持续致力于提高人工智能安全性的一部分,OpenAI 分享了一项新研究,详细介绍了“协商一致”的实施。新的安全方法旨在确保人工智能推理模型与其开发人员设定的值保持一致。
OpenAI 声称,这种方法用于引导 o1 和 o3 模型在推理阶段考虑 OpenAI 的安全策略,从而改善它们的一致性。推理阶段是用户向模型提交提示之后、模型生成响应之前的时期。
OpenAI 在研究中指出,经过深思熟虑的调整可以降低模型产生公司认为违反其安全政策的“不安全”答案或响应的速度,同时提高模型更有效地回答良性问题的能力。
该过程的核心是让模型在思维链阶段重新提示自己。例如,在用户向 ChatGPT 提交问题后,人工智能推理模型需要几秒钟到几分钟的时间才能将问题分解为更小的步骤。
然后,模型根据他们的思维过程生成答案。在协商一致的情况下,模型将 OpenAI 的安全政策纳入内部“协商”的一部分。
OpenAI 训练了其模型(包括 o1 和 o3),以回忆公司安全政策的各个部分,作为该思维链过程的一部分。这样做是为了确保当面对敏感或不安全的查询时,模型能够自我调节并拒绝提供可能造成伤害的答案。
然而,事实证明,实现这一安全功能具有挑战性,因为 OpenAI 研究人员必须确保增加的安全检查不会对模型的速度和效率产生负面影响。
TechCrunch 引用的 OpenAI 研究中提供的一个示例演示了模型如何使用深思熟虑的调整来安全地响应潜在有害的请求。在示例中,用户询问如何创建逼真的残疾人停车标语牌。
在模型的内部思维链中,模型会回忆起 OpenAI 的安全政策,认识到该请求涉及非法活动(伪造停车标牌),并拒绝提供协助,并为其拒绝道歉。

这种类型的内部审议是 OpenAI 如何使其模型与安全协议保持一致的关键部分。例如,深思熟虑的对齐方式不会简单地阻止与“炸弹”等敏感主题相关的任何提示,这会过度限制模型的响应,而是允许人工智能评估提示的具体上下文,并就是否要这样做做出更细致的决定。或不回答。
除了安全性方面的进步之外,OpenAI 还分享了基准测试的结果,这些结果显示了故意调整在提高模型性能方面的有效性。一个被称为帕累托的基准测试衡量模型对常见越狱和绕过人工智能保护措施的抵抗力。
在这些测试中,OpenAI 的 o1-preview 模型在避免不安全输出方面优于其他流行模型,例如 GPT-4o、Gemini 1.5 Flash 和 Claude 3.5 Sonnet。
在另一项单独但相关的进展中,意大利数据保护机构 Garante 在对 OpenAI 处理个人数据的方式进行调查后,对该公司处以 1500 万欧元(1558 万美元)的罚款。
此次罚款源于该机构发现 OpenAI 在没有法律依据的情况下处理用户个人数据,违反了欧盟隐私法要求的透明度和用户信息义务。
据路透社报道,这项于 2023 年开始的调查还显示,OpenAI 没有适当的年龄验证系统,可能会让 13 岁以下的儿童接触到人工智能生成的不适当内容。
Garante 是欧盟最严格的人工智能监管机构之一,命令 OpenAI 在意大利发起为期六个月的公众活动,以提高人们对 ChatGPT 数据收集做法的认识,特别是其使用个人数据来训练算法的认识。
作为回应,OpenAI 称罚款“不成比例”,并表示打算对该决定提出上诉。该公司进一步批评罚款相对其相关时期在意大利的收入而言过大。
Garante 还指出,罚款是根据 OpenAI 的“合作立场”计算的,这意味着如果该公司在调查期间不被视为合作的话,罚款可能会更高。
此次最新罚款并不是 OpenAI 第一次在意大利面临审查。去年,由于涉嫌违反欧盟隐私规则,Garante 曾短暂禁止ChatGPT 在意大利使用。在 OpenAI 解决了一些问题后,该服务得以恢复,其中包括允许用户拒绝同意使用其个人数据来训练算法。
90 天内找到一份高薪 Web3 工作: 终极路线图