【标题】Sustainable Online Reinforcement Learning for Auto-bidding

【作者团队】Zhiyu Mou, Yusen Huo, Rongquan Bai, Mingzhou Xie, Chuan Yu, Jian Xu, Bo Zheng

【发表日期】2022.10.13

【论文链接】https://arxiv.org/pdf/2210.07006.pdf

【推荐理由】面对现实广告系统(RAS)中复杂且多变的竞价环境,最先进的自动竞价策略通常利用强化学习(RL)算法代表广告商生成实时竞价。出于安全考虑,人们认为RL训练过程只能在基于RAS生成的历史数据构建的离线虚拟广告系统(VAS)中进行。本文认为VAS和RAS之间存在着显著的差距,导致RL训练过程存在线上与线下不一致的问题(IBOO)。本文首先对IBOO进行了正式的定义,并系统地分析了其成因和影响。然后,为了避免IBOO,研究者提出了一个可持续的在线RL (SORL)框架,通过直接与RAS交互来训练自动竞价策略,而不是在VAS中学习。文中还开发了一种方差抑制保守Q-learning(V-CQL)方法,利用收集到的数据有效、稳定地学习自动竞价策略。

内容中包含的图片若涉及版权问题,请及时与我们联系删除