Feel-Good Thompson Sampling for Contextual Dueling Bandits

2024年04月09日
  • 简介
    本文介绍了一种名为“上下文对决对手”的学习方法,它基于上下文比较两个选项,并接收反馈来指示哪一个更受欢迎,这扩展了经典的对决对手方法,通过整合上下文信息来进行决策和偏好学习。已经提出了几种基于上置信界(UCB)的算法用于线性上下文对决对手。然而,尽管传统的上下文对决对手方法已经证明了其实用性,但在这种情况下,还没有基于后验抽样的算法被开发出来。在本文中,我们提出了一种名为FGTS.CDB的Thompson抽样算法,用于线性上下文对决对手。我们算法的核心是一个新的“Feel-Good”探索项,专门针对对决对手进行了设计。该项利用了两个选择的臂的独立性,从而避免了交叉项的分析。我们证明了我们的算法实现了几乎最小化最优遗憾,即$\tilde{\mathcal{O}}(d\sqrt T)$,其中$d$是模型维度,$T$是时间跨度。最后,我们在合成数据上评估了我们的算法,并观察到FGTS.CDB明显优于现有算法。
  • 图表
  • 解决问题
    解决问题:论文试图解决什么问题,或者验证什么假设?这是否是一个新问题?
  • 关键思路
    关键思路:论文中解决问题的方案关键思路是什么?相比当前这个领域的研究状况,这篇论文的思路有什么新意?
  • 其它亮点
    其他亮点:论文提出了一种基于Thompson采样的算法FGTS.CDB,用于解决线性上下文对决问题,该算法利用独立性避免交叉项,实现了几乎最小化的遗憾,同时在合成数据上的实验表明FGTS.CDB的表现优于现有算法。
  • 相关研究
    相关研究:最近在这个领域中,还有哪些相关的研究被进行?能否列举一些相关研究的论文标题?
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论