No Algorithmic Collusion in Two-Player Blindfolded Game with Thompson Sampling

2024年05月23日
  • 简介
    当两个玩家在一个未知收益矩阵的重复博弈中,他们可能完全不知道彼此的存在,并使用多臂老虎机算法来选择动作,这在本文中被称为“盲目博弈”。我们证明了当玩家使用Thompson采样时,游戏动态会在收益矩阵的一个温和假设下收敛到纳什均衡。因此,尽管玩家没有故意采用竞争策略,但在这种情况下不会出现算法勾结。为了证明收敛结果,我们发现随机逼近中开发的框架不适用,因为劣势动作的间歇和不频繁的更新以及缺乏Lipschitz连续性。我们开发了一种新的样本路径方法来展示收敛。
  • 图表
  • 解决问题
    本文研究了在未知收益矩阵的情况下,两个使用Thompson采样的玩家在重复博弈中的纳什均衡问题。是否存在算法勾结?
  • 关键思路
    本文提出了一种新的样本路径方法,证明了在收益矩阵满足一定条件时,玩家使用Thompson采样时的博弈动态会收敛到纳什均衡。
  • 其它亮点
    本文的实验结果表明,尽管玩家并没有故意采用竞争策略,但算法勾结并不会发生。本文的方法相比于当前领域的研究更为新颖。
  • 相关研究
    在这个领域中,还有一些相关的研究,如《Optimal Learning in Repeated Games with Limited Memory》和《Bayesian Reinforcement Learning: A Survey》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论