No-Regret Learning for Stackelberg Equilibrium Computation in Newsvendor Pricing Games

2024年03月30日
  • 简介
    我们介绍了在线学习在双方学习代理的交互网络中的斯塔克伯格博弈中的应用,该网络由供应商和零售商组成,特别是在需求函数参数未知的情况下。在这个博弈中,供应商是先行领导者,必须确定产品的最优批发价格。随后,作为跟随者的零售商必须确定产品的最优采购量和销售价格。在完全信息的情况下,这被称为经典的定价新闻供应商问题,并且我们证明了将其扩展为两人定价博弈时存在唯一的斯塔克伯格均衡。在在线学习的框架下,必须学习跟随者和领导者的奖励函数的参数,假设在不确定性下跟随者会最好地做出乐观反应。基于可测不确定性集的上下文线性赌博机算法用于提供对随机需求参数的置信度界限。因此,我们提供了关于斯塔克伯格遗憾的最优有限时间遗憾界限,以及收敛到近似斯塔克伯格均衡的保证。
  • 解决问题
    在一个由供应商和零售商组成的双学习代理系统中,应用在线学习解决未知需求函数参数的Stackelberg博弈问题。
  • 关键思路
    使用基于上下文线性赌博机的新算法,提供了一种可测量的不确定性集合,用于对随机需求参数的置信度界限。同时提供了有限时间的最优Stackelberg遗憾界限和收敛保证。
  • 其它亮点
    使用了在线学习解决未知需求函数参数的问题,提出了一种新算法。实验结果表明算法的有效性和性能。
  • 相关研究
    相关论文:Contextual Linear Bandits with Knapsacks, Linear Programming Relaxations for Contextual Bandits with Knapsacks, Online Learning for Dynamic Pricing with Unknown Demand Function.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论