Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents

2024年03月07日
  • 简介
    越来越多的人对人工智能系统的安全性和对齐性表示担忧,这凸显了在人工智能代理中嵌入道德能力的重要性。一种有前途的解决方案是使用经验学习,即强化学习。在多智能体(社会)环境中,个体学习智能体之间的交互可能会产生复杂的群体级现象。许多现有的研究依赖于模拟社会困境环境来研究独立学习智能体之间的交互。然而,它们往往忽略了在实践中智能体社会中可能存在的道德异质性。例如,单个学习智能体在不同的时间点可能会面对关心随着时间推移最大化某些结果的后果主义者,或者关注于在此时此地遵守特定规范的基于规范的人。智能体的共同发展受到这种道德异质性的影响程度尚不清楚。在本文中,我们展示了一个道德异质性群体在社会困境环境中相互作用的学习动态研究。通过使用一个带有合作伙伴选择机制的囚徒困境环境,我们研究了群体中不同道德智能体的普及程度对个体智能体的学习行为和新兴群体级结果的影响程度。我们观察到了几种非平凡的互动类型,包括亲社会和反社会智能体之间的互动,并发现某些类别的道德智能体能够引导自私的智能体朝着更合作的行为方向发展。
  • 图表
  • 解决问题
    本论文旨在研究道德异质性对于多智能体强化学习中个体学习行为和群体水平结果的影响。通过研究道德异质性对于智能体在囚徒困境环境下的互动中的学习动态,探究不同道德智能体在群体中的影响程度。
  • 关键思路
    论文提出了一种基于强化学习的解决方案,通过在囚徒困境环境下进行实验,研究道德异质性对于多智能体强化学习中个体学习行为和群体水平结果的影响。研究发现,不同类型的道德智能体可以引导自私的智能体向更合作的行为方向发展。
  • 其它亮点
    本文实验使用了基于囚徒困境的环境,在不同道德智能体的影响下,研究了多智能体的学习动态。研究发现,道德异质性对于智能体的学习行为和群体水平结果有着显著的影响。本文的研究成果为多智能体强化学习领域的研究提供了新的思路和方法。
  • 相关研究
    在近期的相关研究中,也有学者探究了多智能体强化学习中道德因素的影响。例如,论文《Multi-Agent Reinforcement Learning with Regret Matching for Social Dilemmas》探究了多智能体强化学习中的社会困境问题,提出了一种基于遗憾匹配的解决方案。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论