- 简介从离线数据集中通过离线强化学习(RL)学习决策策略有望扩大数据驱动决策制定的规模,并避免不安全和昂贵的在线交互。然而,从传感器或人类收集的现实世界数据通常包含噪声和误差,这对现有的离线RL方法构成了重大挑战。我们的研究表明,基于时间差分学习的传统离线RL方法在数据损坏的情况下往往表现不佳,尤其是在数据量有限的情况下。这表明顺序建模有潜力解决离线RL中的数据损坏问题。为了进一步释放序列建模方法的潜力,我们提出了鲁棒决策变压器(RDT),并结合了几种鲁棒技术。具体而言,我们引入了高斯加权学习和迭代数据校正来减少损坏数据的影响。此外,我们利用嵌入式丢弃来增强模型对错误输入的抵抗力。对MoJoCo、KitChen和Adroit任务进行的广泛实验表明,与以前的方法相比,RDT在不同的数据损坏情况下表现出更好的性能。此外,RDT在将训练时间数据损坏与测试时间观察扰动相结合的具有挑战性的环境中展现出了显着的鲁棒性。这些结果突显了鲁棒序列建模在从嘈杂或损坏的离线数据集中学习的潜力,从而促进了离线RL在实际任务中的可靠应用。
- 图表
- 解决问题本论文旨在解决从离线数据集中学习策略的挑战,即数据集中可能存在的噪声和错误。
- 关键思路提出了一种新的序列建模方法——Robust Decision Transformer(RDT),通过引入几种鲁棒性技术来降低受到损坏数据的影响。
- 其它亮点论文在MoJoCo、KitChen和Adroit任务上进行了广泛的实验,证明了RDT在面对多样化的数据损坏时具有卓越的性能,同时在训练时数据损坏和测试时观察扰动的挑战性设置下表现出显著的鲁棒性。
- 近期的相关研究包括:Offline Reinforcement Learning: Tutorial, Review, and Perspectives;Offline Reinforcement Learning: A Survey。


提问交流