【标题】Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning

【研究团队】南京大学 , 阿里巴巴

【资源链接】https://github.com/eyounx/VirtualTaobao

【发表时间】2019.11

【推荐理由】

本工具主要用模仿学习的技术实现真实淘宝线上用户的模拟。推荐系统,计算广告在我们互联网环境中承担着极其重要的作用。在线上环境进行实验,成本较高。而常规的线下模型评估工具却不能很好的反映模型真实的线上效果。这就成了广大推荐算法落地的一个障碍,此工具直击痛点,用模仿学习的方式训练智能体还原真实用户行为。工具提出GAN-SD方法,从历史客户数据中训练,在虚拟淘宝中训练出来的策略可以有明显优于传统的监督方法的在线性能。

在物理世界的任务中应用强化学习是极具挑战性的。在物理环境中,按照当前强化学习方法的要求,对大量试验进行采样通常是不可行的。本文报告了我们在淘宝网上使用强化学习进行更好的商品搜索的项目,淘宝网是最大的在线零售平台之一,同时也是一个具有高采样成本的物理环境。我们没有直接在淘宝网中训练强化学习,而是提出了我们的方法:首先我们建立了虚拟淘宝网,这是一个通过提出的GAN-SD(模拟分布的GAN)和MAIL(多代理对抗性模仿学习)从历史客户行为数据中学习的模拟器,然后我们在虚拟淘宝网中训练策略,没有现实世界成本,其中提出了ANC(行动规范约束)策略来减少过度拟合。在实验中,我们从数以亿计的客户记录中训练了虚拟淘宝,并将其特性与真实环境进行了比较。结果显示,虚拟淘宝忠实地恢复了真实环境的重要属性。我们还表明,在虚拟淘宝中训练出来的策略可以有明显优于传统的监督方法的在线性能。我们希望我们的工作能够为复杂物理环境中的强化学习应用带来一些启示。

内容中包含的图片若涉及版权问题,请及时与我们联系删除