Causally Abstracted Multi-armed Bandits

2024年04月26日
  • 简介
    多臂赌博机(MAB)和因果MAB(CMAB)是决策问题的已建立框架。先前的大部分工作通常研究和解决给定问题和相关数据的单个MAB和CMAB。然而,决策者通常面临多个相关问题和多尺度观测,需要联合制定方案以有效利用问题结构和数据依赖性。针对CMAB的转移学习解决了模型在相同变量上定义的情况,尽管因果连接可能不同。在这项工作中,我们将转移学习扩展到涉及可能不同变量的CMAB设置中,具有不同的粒度,并通过抽象映射相关。正式地,我们通过依赖因果抽象理论来表达严谨的抽象映射,介绍了因果抽象MAB(CAMAB)的问题。我们提出了算法来学习CAMAB,并研究其遗憾。我们在与在线广告相关的实际场景中说明了我们算法的局限性和优势。
  • 图表
  • 解决问题
    本文试图解决的问题是如何将因果抽象应用于多臂赌博机(MAB)和因果多臂赌博机(CMAB)的迁移学习中,以便于决策者能够更高效地利用问题结构和数据依赖性。
  • 关键思路
    本文提出了因果抽象多臂赌博机(CAMAB)的概念,通过引入因果抽象理论来表达抽象映射,实现了将CMAB迁移学习应用于不同变量的CAMAB中的问题。
  • 其它亮点
    本文提出了CAMAB的概念,提出了用于CAMAB学习的算法,并对其遗憾进行了研究。同时,本文还在在线广告领域进行了实验,并对算法的局限性和优点进行了分析。
  • 相关研究
    在最近的相关研究中,也有一些关于MAB和CMAB迁移学习的研究,例如《Transfer Learning for Contextual Bandits with Unknown Target Distributions》和《Transfer Learning for Multi-Armed Bandits》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论