预计这将使人工智能模型能够对模型的响应做出可靠的判断。
根据路透社的一篇文章,该模型可以检查并提高对棘手问题(例如科学、数学和编码等学科中的问题)的响应准确性,因为它需要将复杂的问题分解为更小的逻辑步骤。
Meta 透露其意图包括解决 ChatGPT 等其他人工智能模型所遇到的挑战,以及对过时和不准确答案的批评。
据报道,Meta 的研究人员完全使用人工智能生成的数据来训练评估器模型,消除了该阶段的人工输入。
两名 Meta 研究人员告诉路透社,使用人工智能可靠地评估其他人工智能的能力让我们得以一睹构建能够从自己的错误中学习的自主能力的可能途径。
“我们希望,随着人工智能变得越来越超人类,它会越来越好地检查自己的工作,这样它实际上就会比普通人类更好。”研究员杰森·韦斯顿。
“自学和自我评估的想法对于达到这种超人类水平的人工智能来说基本上是至关重要的,”他补充道。
研究人员表示,人工智能行业的利益相关者将这些代理视为数字助理,它们足够智能,无需人工干预即可执行各种任务。
研究人员认为,自我改进模型可以消除对当今使用的通常昂贵且低效的过程的需求,这种过程被称为“人类反馈强化学习”。这需要人工注释者的输入,他们必须具备专业知识来准确标记数据并验证复杂数学和书写查询的答案是否正确。
Google 和 Anthropic 等业界同行也发表了有关 RLAIF(即 AI 反馈强化学习)概念的研究论文。
然而,与 Meta 不同的是,这些其他公司往往不会发布他们的模型供公众使用。
人工智能行业专家认为,利用人工智能来检查人工智能对于构建无需人工干预即可运行的自主人工智能应用具有重要意义。这意味着最终人工智能模型将从自己的错误中学习、自我纠正并改进,而无需人类的任何输入。
这家社交媒体巨头还发布了其他工具,包括对其图像dent分段任何模型(SAM)的更新,该工具可以加快法学硕士响应生成时间和可用于帮助发现新无机材料的数据集。