我们的对齐研究旨在使人工智能 (AGI) 与人类价值观保持一致并遵循人类意图。我们采用迭代的经验方法:通过尝试调整功能强大的人工智能系统,我们可以了解哪些有效,哪些无效,从而提高我们使人工智能系统更安全、更协调的能力。通过科学实验,我们研究对齐技术如何扩展以及它们将在哪里中断。

我们解决了我们最强大的 AI 系统中的对齐问题,以及我们期望在通往 AGI 的道路上遇到的对齐问题。我们的主要目标是尽可能地推动当前的对齐想法,并准确理解和记录它们如何成功或失败的原因。我们相信,即使没有全新的对齐理念,我们也可以构建充分对齐的 AI 系统,从而大幅推进对齐研究本身。

未对齐的 AGI 可能对人类构成重大风险,解决 AGI 对齐问题可能非常困难,需要全人类共同努力。因此,我们致力于在安全的情况下公开分享我们的对齐研究:我们希望对我们的对齐技术在实践中的实际效果保持透明,我们希望每个 AGI 开发人员都使用世界上最好的对齐技术。

在高层次上,我们的对齐研究方法侧重于为非常智能的 AI 系统设计可扩展的训练信号,该信号与人类意图一致。它具有三个主要支柱:

  1. 使用人类反馈训练 AI 系统
  2. 训练人工智能系统以协助人类评估
  3. 训练人工智能系统进行对齐研究

使人工智能系统与人类价值观保持一致也带来了一系列其他重大的社会技术挑战,例如决定这些系统应该与谁保持一致。解决这些问题对于实现我们的使命很重要,但我们不会在这篇文章中讨论它们。

内容中包含的图片若涉及版权问题,请及时与我们联系删除