- 简介我们展示了一个事实,即现成的基于文本的Transformer模型,在没有额外训练的情况下,能够执行少量样本的上下文视觉模仿学习,将视觉观察映射到模仿演示者行为的动作序列。我们通过将视觉观察(输入)和动作轨迹(输出)转换为标记序列,使得一个文本预训练的Transformer模型(GPT-4 Turbo)能够接受并生成这些序列,从而实现了这一点。我们称之为Keypoint Action Tokens(KAT)框架。尽管仅在语言上进行训练,我们展示了这些Transformer模型擅长将标记化的视觉关键点观察转换为动作轨迹,并在一系列真实世界的日常任务中,在低数据情况下表现出色,与最先进的模仿学习(扩散策略)相当甚至更好。KAT不同于通常的语言领域操作,它利用基于文本的Transformer模型来操作视觉和动作领域,以学习演示数据中的一般模式,实现高效的模仿学习,这表明了将自然语言模型用于具体任务的有前途的新途径。视频可在https://www.robot-learning.uk/keypoint-action-tokens上获得。
- 图表
- 解决问题本论文旨在通过使用预训练的文本转换器进行少样本情境下的视觉模仿学习,从而实现将视觉观察映射到模仿演示者行为的行动序列。论文旨在验证使用文本转换器进行视觉模仿学习的有效性,以及其在低数据情况下的性能表现。
- 关键思路论文采用Keypoint Action Tokens(KAT)框架,将视觉观察和行动轨迹转换为文本序列,然后使用预训练的文本转换器(GPT-4 Turbo)进行训练和生成。相比当前领域的研究,该论文的关键思路在于通过利用文本转换器在视觉和行动领域中进行操作,从而实现高效的模仿学习。
- 其它亮点论文的亮点在于使用文本转换器进行视觉模仿学习,无需进行额外的训练即可取得良好的性能表现。论文还提供了视频和开源代码,以便其他研究者进行复现和扩展。值得进一步研究的方向包括如何进一步提高模型的泛化能力和应用范围。
- 近期在这个领域中的相关研究包括《One-Shot Visual Imitation Learning via Meta-Learning》和《Learning to Learn from Demonstration》等。
沙发等你来抢
去评论
评论
沙发等你来抢