在物理世界的任务中应用强化学习是极具挑战性的。在物理环境中,按照当前强化学习方法的要求,对大量试验进行采样通常是不可行的。本文报告了我们在淘宝网上使用强化学习进行更好的商品搜索的项目,淘宝网是最大的在线零售平台之一,同时也是一个具有高采样成本的物理环境。我们没有直接在淘宝网中训练强化学习,而是提出了我们的方法:首先我们建立了虚拟淘宝网,这是一个通过提出的GAN-SD(模拟分布的GAN)和MAIL(多代理对抗性模仿学习)从历史客户行为数据中学习的模拟器,然后我们在虚拟淘宝网中训练策略,没有现实世界成本,其中提出了ANC(行动规范约束)策略来减少过度拟合。在实验中,我们从数以亿计的客户记录中训练了虚拟淘宝,并将其特性与真实环境进行了比较。结果显示,虚拟淘宝忠实地恢复了真实环境的重要属性。我们还表明,在虚拟淘宝中训练出来的策略可以有明显优于传统的监督方法的在线性能。我们希望我们的工作能够为复杂物理环境中的强化学习应用带来一些启示。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢