Bridging the Gap between Partially Observable Stochastic Games and Sparse POMDP Methods

2024年05月29日
  • 简介
    许多现实中的决策问题涉及多个自利代理人的相互作用,这些代理人具有有限的感知能力。部分可观察随机博弈(POSG)提供了一个数学框架来描述这些问题,然而解决POSG需要对两个关键因素进行困难的推理:(1)部分观察所揭示的信息和(2)其他代理人的决策。在单个代理人的情况下,部分可观察马尔可夫决策过程(POMDP)规划可以通过粒子滤波有效地解决部分可观察性。在多代理人的情况下,不完全信息博弈解决方法考虑到其他代理人的决策,但排除了信念逼近。我们提出了一个统一的框架,将POMDP启发的状态分布逼近和基于信息集的博弈论均衡搜索相结合。这种方法使得在具有非常大状态空间的POSG中进行在线规划成为可能,为在现实物理环境中可靠的自主交互铺平了道路,并且可以补充离线的多代理人强化学习。在几个零和例子中的实验表明,新框架计算出了解决小和大状态空间问题的解决方案。
  • 图表
  • 解决问题
    解决问题的部分可观察随机博弈(POSG)中,如何进行在线规划和决策?
  • 关键思路
    将POMDP的状态分布近似和博弈论的信息集均衡搜索相结合,提出了一种新的框架,以实现在POSG中的在线规划。
  • 其它亮点
    该论文提出的新框架可以在POSG中进行在线规划,即使在非常大的状态空间中也可以计算出解决方案。实验表明,该框架可以应用于多个零和博弈示例,并且可以处理小型和大型状态空间的问题。
  • 相关研究
    POSG和POMDP的相关研究已经进行了很多,而该论文提出的新框架将这两个领域相结合,提供了一种新的解决方案。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论