Robust Decision Transformer: Tackling Data Corruption in Offline RL via Sequence Modeling

2024年07月05日
  • 简介
    从离线数据集中通过离线强化学习(RL)学习决策策略有望扩大数据驱动决策制定的规模,并避免不安全和昂贵的在线交互。然而,从传感器或人类收集的现实世界数据通常包含噪声和误差,这对现有的离线RL方法构成了重大挑战。我们的研究表明,基于时间差分学习的传统离线RL方法在数据损坏的情况下往往表现不佳,尤其是在数据量有限的情况下。这表明顺序建模有潜力解决离线RL中的数据损坏问题。为了进一步释放序列建模方法的潜力,我们提出了鲁棒决策变压器(RDT),并结合了几种鲁棒技术。具体而言,我们引入了高斯加权学习和迭代数据校正来减少损坏数据的影响。此外,我们利用嵌入式丢弃来增强模型对错误输入的抵抗力。对MoJoCo、KitChen和Adroit任务进行的广泛实验表明,与以前的方法相比,RDT在不同的数据损坏情况下表现出更好的性能。此外,RDT在将训练时间数据损坏与测试时间观察扰动相结合的具有挑战性的环境中展现出了显着的鲁棒性。这些结果突显了鲁棒序列建模在从嘈杂或损坏的离线数据集中学习的潜力,从而促进了离线RL在实际任务中的可靠应用。
  • 图表
  • 解决问题
    本论文旨在解决从离线数据集中学习策略的挑战,即数据集中可能存在的噪声和错误。
  • 关键思路
    提出了一种新的序列建模方法——Robust Decision Transformer(RDT),通过引入几种鲁棒性技术来降低受到损坏数据的影响。
  • 其它亮点
    论文在MoJoCo、KitChen和Adroit任务上进行了广泛的实验,证明了RDT在面对多样化的数据损坏时具有卓越的性能,同时在训练时数据损坏和测试时观察扰动的挑战性设置下表现出显著的鲁棒性。
  • 相关研究
    近期的相关研究包括:Offline Reinforcement Learning: Tutorial, Review, and Perspectives;Offline Reinforcement Learning: A Survey。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问