使用 OpenAI 的个人已dent一个漏洞。 OpenAI 发布其最初的“推理”人工智能模型 o1 后不久,就观察到了一种奇怪的行为。显然,当用英语提出询问时,模型有时会开始用英语以外的语言“思考”,例如中文或波斯语。
有网友表示, “[O1]中途突然开始用中文思考。”此外, X上也表示, “为什么[o1]随机开始用中文思考?”
为什么o1 pro突然开始用中文思考?对话的任何部分(5 条以上消息)都不是中文的……非常有趣……训练数据的影响pic.twitter.com/yZWCzoaiit
- Rishab Jain (@RishabJainK) 2025 年 1 月 9 日
根据观察,当遇到需要解决的问题时,o1 会开始其“思考”过程,其中涉及一系列得出答案的推理步骤。如果查询是用英语编写的,o1 的最终响应将是英语。
尽管如此,该模型在得出结论之前仍会用不同的语言执行某些程序。
值得注意的是,OpenAI 没有对 o1 的特殊行为做出解释,甚至也没有承认。那么,造成这种情况的原因可能是什么?
Hugging Face CEO Clément Delangue在 X 上提到 ,像 o1 这样的推理模型是在含有大量中文字母的数据集上训练的。
此外,谷歌 DeepMind 研究员特德·肖表示,OpenAI 等组织使用第三方中文数据标签服务,向中文的过渡是“中文语言对推理的影响”的一个例子。
X 帖子中写道, “像 OpenAI 和 Anthropic 这样的 AGI 实验室利用 3P 数据标记服务来获取科学、数学和编码的博士级推理数据;出于专家劳动力可用性和成本原因,许多数据提供商都位于中国。”
显然,在训练过程中,标签(也称为dent或注释)帮助模型理解和解释数据。
例如,用于训练图像识别模型的标签可能由指代图像中描绘的每个人、地点或对象的标题或对象周围的标记组成。
此外,研究表明,有偏差的分类可能会导致模型有偏差。举个例子,一般注释者更倾向于用非裔美国人白话英语 ( AAVE ) 来标记短语。
这被某些美国黑人视为有毒的非正式语法。因此,经过标签训练的人工智能毒性检测器认为AAVE毒性过高。
尽管如此,o1中文数据标注理论并未得到其他专家的认可。他们强调,o1 在尝试制定解决方案时同样有可能过渡到印地语、泰语或中文以外的语言。
相反,这些专家认为 o1 和其他推理模型可能正在使用最有效的语言来实现目标。
为此,人工智能研究员 Matthew Guzdial 表示, “该模型不知道语言是什么,也不知道语言之间存在差异。”这是因为令牌与标签类似,有可能产生偏见。
特别是,各种单词到标记的翻译器假定句子中的空格表示新单词。这与并非所有语言都使用空格来分隔单词这一事实无关。
然而,非营利性艾伦人工智能研究所的研究科学家卢卡·索尔代尼(Luca Soldaini)强调,不可能确定。他表示, “由于这些模型的不透明性质,对已部署的人工智能系统的这种观察是不可能得到支持的……这是强调人工智能系统构建中透明度的重要性的众多实例之一。 ”。
对于 OpenAI 来说,2024 年简直就是过山车。该公司及其首席执行官萨姆·奥尔特曼(Sam Altman)今年年初就被埃隆·马斯克(Elon Musk)起诉。他认为,该企业从最初的非营利目标转向强调利润而非公共利益。
去年,《纽约每日新闻》、《芝加哥论坛报》、《丹佛邮报》等美国八家报纸起诉了 OpenAI 和微软。他们指责该公司在未经许可或付费的情况下使用数百万份受版权保护的出版物来训练人工智能聊天机器人。他们声称该技术侵犯了他们的知识产权。
此外,OpenAI 首席技术官 Mira Murati 宣布离职。这是一个关键时刻,因为她的技术能力对公司的发展至关重要。
此外,OpenAI 在使用 ChatGPT 时遇到了一些困难,例如偶尔中断、导致聊天机器人响应不准确或无意义的故障,以及对用户隐私的担忧。在某些情况下,人工智能会生成有偏见或令人反感的内容。
搜索...