Urban-Focused Multi-Task Offline Reinforcement Learning with Contrastive Data Sharing

2024年06月20日
  • 简介
    在城市环境中增强多样化的人类决策过程是各种应用中的一个关键问题,包括拼车车辆调度、公共交通管理和自动驾驶等。离线强化学习(RL)是一种有前途的方法,可以从预先收集的人类生成的时空城市数据中学习和优化人类城市策略(或政策)。然而,标准的离线RL面临两个重大挑战:(1)数据稀缺性和数据异质性,以及(2)分布转移。本文介绍了MODA——一种多任务离线强化学习与对比数据共享方法。MODA通过任务之间的对比数据共享来解决多任务城市环境中的数据稀缺性和异质性挑战。该技术涉及通过对比正负数据对来提取人类行为的潜在表示。然后将呈现类似表示的数据与目标任务共享,促进每个任务的数据增强。此外,MODA开发了一种新颖的基于模型的多任务离线RL算法。该算法通过将动力学模型与生成对抗网络(GAN)集成来构建强大的马尔可夫决策过程(MDP)。一旦建立了强大的MDP,就可以应用任何在线RL或规划算法。在真实的多任务城市环境中进行的大量实验验证了MODA的有效性。结果表明,MODA相对于现有技术基线具有显着的改进,展示了其推进城市决策过程的能力。我们还将我们的代码提供给研究社区。
  • 图表
  • 解决问题
    本文旨在解决城市环境下的多样化人类决策过程优化问题,通过离线强化学习来学习和优化人类的城市策略。但是,标准的离线强化学习面临着数据稀缺和数据异质性以及分布转移的两个重大挑战。
  • 关键思路
    本文提出了一种名为MODA的多任务离线强化学习方法,通过对比数据共享来处理多任务环境下的数据稀缺和异质性问题。该方法通过对比正负数据对来提取人类行为的潜在表示,并将呈现相似表示的数据与目标任务共享,从而促进每个任务的数据增强。此外,MODA还开发了一种新的基于模型的多任务离线强化学习算法,通过将动力学模型与生成对抗网络(GAN)相结合来构建稳健的马尔可夫决策过程(MDP)。一旦建立了稳健的MDP,任何在线RL或计划算法都可以应用。
  • 其它亮点
    本文的亮点包括:使用对比数据共享来处理多任务环境下的数据稀缺和异质性问题;开发了一种新的基于模型的多任务离线强化学习算法;在实际的多任务城市环境中进行了大量实验,证明了MODA相对于现有基线算法的显着改进;代码已经开源。
  • 相关研究
    在这个领域的相关研究包括:基于强化学习的城市交通调度、城市交通管理和自主驾驶等应用。此外,还有一些相关的论文,例如《Multi-Agent Reinforcement Learning for Urban Traffic Control: An Overview》和《Urban Traffic Control via Deep Reinforcement Learning with Hierarchical Graph Neural Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论