- 简介真实世界的决策需要应对数据不断变化的永恒缺乏;智能代理必须理解不确定性并积极收集信息以解决它。我们提出了一个新的框架,用于从海量历史数据中学习赌博算法,并在冷启动推荐问题中进行了演示。首先,我们使用历史数据预训练自回归模型,以预测一系列重复反馈/奖励的序列(例如,随着时间的推移向不同用户展示新闻文章的反应)。通过学习进行准确预测,模型隐含地学习了基于丰富行动特征(例如文章标题)的知情先验,以及如何随着收集更多奖励(例如点击每篇推荐文章)而锐化信念。在决策时,我们自回归地对每个操作采样(插补)一系列想象的奖励,并选择平均插补奖励最大的操作。我们的方法远非启发式方法,而是Thompson采样(具有学习先验的著名主动探索算法)的一种实现。我们证明了我们的预训练损失直接控制在线决策性能,并在新闻推荐任务中演示了我们的框架,其中我们集成了端到端微调预训练语言模型以处理新闻文章标题文本以提高性能。
-
- 图表
- 解决问题论文旨在解决从历史数据中学习赌博算法的问题,以解决冷启动推荐问题。
- 关键思路论文提出了一个新的框架,利用自回归模型预测重复反馈/奖励的序列,并在决策时使用Thompson采样来选择具有最大平均奖励的操作。
- 其它亮点论文证明了预训练损失直接控制在线决策性能,实验中使用了新闻推荐任务,并使用预训练语言模型进行端到端微调以处理新闻文章标题文本。
- 与该论文相关的其他研究包括:'A Contextual-Bandit Approach to Personalized News Article Recommendation','Deep Bayesian Bandits Showdown: An Empirical Comparison of Bayesian Deep Networks for Thompson Sampling'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流