LLaRA: Supercharging Robot Learning Data for Vision-Language Policy

2024年06月28日
  • 简介
    本文提出了LLaRA: Large Language and Robotics Assistant,这是一个框架,将机器人行动策略制定为对话,并在训练时提供补充策略学习的辅助数据,从而提供更好的响应。具有视觉输入的LLMs,即Vision Language Models (VLMs),具有将状态信息处理为视觉文本提示并生成文本中最佳策略决策的能力。为了训练这种行动策略的VLMs,我们首先介绍了一个自动化流程,从现有的行为克隆数据生成多样化的高质量机器人指令数据。通过针对机器人任务量身定制的对话式表述,对这些数据集进行微调,可以生成有意义的机器人行动策略决策。我们在多个模拟和真实环境中进行的实验表明了所提出的LLaRA框架的最先进性能。代码、数据集和预训练模型可在https://github.com/LostXine/LLaRA中获得。
  • 图表
  • 解决问题
    论文提出了LLaRA框架,旨在将机器人行动策略制定为对话,并通过辅助数据的训练来提供改进的响应。该框架的目标是提高机器人在多个领域的任务中的表现。
  • 关键思路
    通过使用视觉输入的LLMs和VLMs,将机器人的状态信息作为视觉-文本提示进行处理,并生成文本形式的最优策略决策。
  • 其它亮点
    论文介绍了一个自动化流程,用于从现有的行为克隆数据中生成多样化的高质量机器人指令数据集。在多个模拟和真实环境中进行的实验表明,LLaRA框架具有最先进的性能。研究者还提供了代码、数据集和预训练模型。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Learning to Navigate in Cities Without a Map》、《Learning to Learn How to Learn: Self-Adaptive Visual Navigation Using Meta-Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论