- 简介许多人机交互的场景,例如虚拟个人助理和自动驾驶汽车等,都可以自然地建模为人类(委托人)授权代理人(机器),由代理人代表委托人进行交互。我们将这些多委托人、多代理人的情境称为委托博弈。在这种博弈中,有两种重要的失误模式:控制问题(代理人未能按照委托人的偏好行事)和合作问题(代理人未能良好地协同工作)。本文对这些问题进行了形式化和分析,并进一步将其分解为对齐问题(玩家是否有相似的偏好?)和能力问题(玩家在满足这些偏好方面的能力如何?)。我们理论上和实证上展示了这些措施如何决定委托人的福利,如何利用有限的观察估计它们,以及如何利用它们来帮助我们设计更为对齐和合作的AI系统。
- 图表
- 解决问题本论文试图解决多代理人场景中的控制和合作问题,进一步将其分解为偏好和能力问题,并探索如何通过有限观测来估计这些问题,以设计更加协调的人工智能系统。
- 关键思路本论文的关键思路是将多代理人场景下的控制和合作问题分解为偏好和能力问题,并提出了一种基于观测数据的解决方案。
- 其它亮点论文通过理论和实证分析揭示了偏好和能力问题对委托人福利的影响,提出了一种基于观测数据的解决方案,并在多个数据集上进行了实验验证。此外,论文还提出了一种新的衡量偏好和能力问题的方法,并探讨了如何将其应用于设计更加协调的人工智能系统。
- 最近的相关研究包括“Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms”和“Learning to Communicate in Multi-Agent Reinforcement Learning: A Review”。
沙发等你来抢
去评论
评论
沙发等你来抢