IBCB: Efficient Inverse Batched Contextual Bandit for Behavioral Evolution History

简介

传统的模仿学习侧重于建模专家的行为机制，这需要大量由某个固定专家生成的交互历史。然而，在许多流式应用中，例如流式推荐系统，在线决策者通常在决策过程中进行在线学习，这意味着在线决策者生成的交互历史包括他们从新手专家到有经验专家的行为演变。这为现有的只能利用有经验专家数据的模仿学习方法提出了新的挑战。为了解决这个问题，本文提出了一种逆批量上下文赌博机（IBCB）框架，可以有效地对专家的行为演变历史进行环境奖励参数和学习策略的估计。具体而言，IBCB利用具有不可访问奖励的批量上下文赌博机的行为演变历史将逆问题制定为简单的二次规划问题。我们证明了IBCB是确定性和随机赌博策略的统一框架。实验结果表明，IBCB在合成和真实数据上优于几种现有的模仿学习算法，并显著缩短了运行时间。此外，实证分析表明，IBCB表现出更好的分布外泛化能力，并且在从新手专家的交互历史中学习赌博策略方面非常有效。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在缺乏专家参与的情况下，有效地从在线决策者的行为演变历史中学习策略？
关键思路

提出了一种逆批量上下文强化学习框架（IBCB），通过利用批量上下文强化学习的行为演变历史，将逆问题转化为简单的二次规划问题，从而有效地进行环境奖励参数和学习策略的估计。
其它亮点

IBCB是一种统一的框架，适用于确定性和随机的Bandit策略。实验结果表明，IBCB在合成和实际数据上优于现有的模仿学习算法，并显著减少了运行时间。此外，实证分析表明，IBCB表现出更好的分布外泛化能力，并且在从初学者专家的交互历史中学习Bandit策略方面非常有效。
相关研究

相关研究包括传统的模仿学习方法和基于强化学习的方法，如逆强化学习和Actor-Critic方法。

IBCB: Efficient Inverse Batched Contextual Bandit for Behavioral Evolution History

提问交流

提问交流