- 简介我们计算连续信号和行动空间下的多阶段博弈的均衡策略,这种博弈在管理科学和经济学中广泛使用,例如通过拍卖进行的顺序销售,多阶段淘汰竞赛和斯塔克伯格竞争。在顺序拍卖中,进行均衡分析的分析师需要推导出所有可能信号或价值在多个阶段中投标者的出价函数,而不仅仅是单个出价。由于信号和行动空间的连续性,这些出价函数来自于无限维空间。虽然这些模型对于博弈论及其应用至关重要,但均衡策略很少被人们所知。由此产生的非线性微分方程组被认为对于除了基本模型外的所有模型都是棘手的。这一点一直限制着博弈论的进展,也是其在该领域得到应用的障碍。我们展示了深度强化学习和自我对弈可以学习各种多阶段博弈中的均衡投标策略。我们在尚未经过分析探索的模型中找到了均衡,还为顺序拍卖的已建立模型发现了新的非对称均衡出价函数。由于连续信号和行动空间,这些游戏的均衡验证具有挑战性。我们介绍了一种验证算法,并证明了在考虑具有不断离散化和样本大小增加的Lipschitz连续策略时,该验证器的误差会减小。
- 图表
- 解决问题本文旨在解决多阶段连续信号和动作空间中的均衡策略计算问题,这种问题在管理科学和经济学中被广泛使用,但由于信号和动作空间的连续性,导致均衡策略很难被计算出来。
- 关键思路本文提出使用深度强化学习和自我博弈来学习多阶段游戏的均衡竞标策略,通过验证算法来证明其正确性,并且在一些尚未被分析过的模型中找到了均衡策略。
- 其它亮点本文的实验结果表明,使用深度强化学习和自我博弈可以有效地学习多阶段游戏的均衡竞标策略,而且可以在一些尚未被分析过的模型中找到新的均衡竞标函数。此外,本文还介绍了一种验证算法,并证明了其正确性。
- 最近的相关研究包括使用深度学习来计算多阶段博弈的均衡策略,以及使用自我博弈来学习博弈的均衡策略。其中一些相关的论文包括:'Deep Reinforcement Learning for Strategic Decision Making'和'Self-Play in Imperfect-Information Games'.
沙发等你来抢
去评论
评论
沙发等你来抢