Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals

向作者提问

NEW

简介

这项工作介绍了一种新颖的扩散策略框架——多模态扩散变压器（MDT），它能够从少量语言注释的多模态目标规范中学习多功能行为。MDT利用基于扩散的多模态变压器主干和两个自监督辅助目标来掌握基于多模态目标的长时程操作任务。绝大多数模仿学习方法只从单个目标模态学习，例如语言或目标图像。然而，现有的大规模模仿学习数据集只有部分带有语言注释，这使得当前的方法无法从这些数据集中学习语言条件下的行为。MDT通过引入一种潜在的目标条件状态表示来解决这个挑战，该表示同时在多模态目标指令上进行训练。该状态表示对齐基于图像和语言的目标嵌入，并编码足够的信息来预测未来状态。该表示通过两个自监督辅助目标进行训练，增强了所提出的变压器主干的性能。MDT在挑战性的CALVIN和LIBERO基准测试中提供的164个任务中表现出了异常的性能，其中包括一个仅包含不到2%语言注释的LIBERO版本。此外，MDT在CALVIN操作挑战赛上创下了新纪录，相对于需要大规模预训练并包含10倍更多可学习参数的先前最先进方法，表现出了15%的绝对性能提升。MDT在模拟和实际环境中展示了从稀疏注释数据中解决长时程操作的能力。演示和代码可在https://intuitive-robots.github.io/mdt_policy/上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文试图解决从少量语言注释中学习多模态目标规范的问题，并提出了一种新的扩散策略框架。
关键思路

MDT利用基于扩散的多模态transformer骨干和两个自监督辅助目标来掌握基于多模态目标的长视程操作任务。MDT引入了一种潜在的目标条件状态表示，同时在多模态目标指令上进行训练，使图像和语言基础的目标嵌入对齐，并编码足够的信息来预测未来状态。
其它亮点

论文提出的MDT在CALVIN和LIBERO基准测试中展现出了出色的性能，包括一个仅包含不到2％语言注释的LIBERO版本。此外，MDT在CALVIN操作挑战赛上建立了新的记录，相对于需要大规模预训练并包含10倍可学习参数的先前最先进方法，表现出15％的绝对性能提升。MDT在模拟和实际环境中展示了从稀疏注释数据中解决长视程操作的能力。论文提供了演示和代码。
相关研究

与本论文相关的其他研究包括：《End-to-End Robotic Reinforcement Learning without Reward Engineering》、《Learning to Navigate in Cities Without a Map》、《Learning to Move in Environments with Humans and Objects》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问