- 简介传感器和执行器在不同环境中的异质性为基于这种低维传感器信息构建大规模预训练世界模型带来了重大挑战。在这项工作中,我们通过解决数据多样性和模型灵活性方面的关键迁移障碍,探索为异质环境预训练世界模型的方法。我们引入了UniTraj,一个统一的数据集,包含来自80个环境的超过一百万个轨迹,旨在扩展数据的同时保留关键的多样性。此外,我们提出了TrajWorld,一种新型架构,能够灵活处理不同的传感器和执行器信息,并在上下文中捕捉环境动态。在UniTraj上预训练TrajWorld展示了在转换预测上的显著改进,并在离线策略评估中达到了新的最先进水平。据我们所知,这项工作首次展示了世界模型在跨异质和复杂控制环境中的迁移优势。
- 图表
- 解决问题该论文旨在解决在不同环境中的传感器和执行器异质性所带来的挑战,特别是如何利用低维传感器信息构建大规模预训练的世界模型。这是一个新问题,因为之前的研究大多集中在同质环境或单一类型的任务上。
- 关键思路关键思路是通过引入UniTraj——一个包含超过一百万个轨迹、来自80个不同环境的统一数据集,以及提出一种新的架构TrajWorld,该架构能够灵活处理不同的传感器和执行器信息,并在上下文中捕捉环境动态。相比现有研究,这种方法不仅提高了数据的多样性,还增强了模型的灵活性。
- 其它亮点亮点包括:1) UniTraj数据集的大规模和多样性;2) TrajWorld架构在处理异构输入方面的创新设计;3) 实验结果表明,在过渡预测和离线策略评估方面取得了显著改进,达到了新的SOTA水平;4) 研究首次展示了世界模型在复杂控制环境中跨域迁移的好处。此外,代码已开源,便于后续研究。
- 最近相关研究包括《Learning Latent Dynamics for Planning from Pixels》、《PlaNet of Large-Scale Model-Based Deep RL》等,这些研究主要关注于从高维观测中学习潜在动力学以支持规划,但较少涉及如何应对传感器和执行器的异质性问题。
沙发等你来抢
去评论
评论
沙发等你来抢