AI safety by debate via regret minimization

2023年12月08日
  • 简介
    我们将AI安全辩论的情境视为一种重复博弈。我们考虑在这种情境下,当玩家是AI或人类,并配备了可以访问计算能力更强的AI时,如何有效地减少遗憾。在这种情境下,我们确定了何时可以有效地减少内部和外部遗憾。最后,我们总结了一些条件,使得一系列策略收敛于相关均衡。
  • 作者讲解
  • 图表
  • 解决问题
    AI安全性辩论作为重复博弈的效率后悔最小化问题
  • 关键思路
    研究在AI安全性辩论中,当玩家是AI或人类,并且具有访问计算能力更强的AI时,如何高效地减少内部和外部后悔
  • 其它亮点
    论文探讨了在AI安全性辩论中的效率后悔最小化问题,提出了一些策略,这些策略可以收敛于相关均衡。实验设计合理,使用了数据集,并开源了代码。
  • 相关研究
    相关研究包括《AI安全性工程:问题、方法和挑战》、《人工智能安全:挑战和解决方案》等
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问