- 简介在3D操作中获得多任务模仿策略存在场景理解和行动预测等挑战。目前的方法采用3D表示和多视角2D表示来预测机器人末端执行器的姿态。然而,它们仍然需要大量高质量的机器人轨迹,并且在未见任务的有限泛化和长期推理的低效执行方面存在问题。在本文中,我们提出了SAM-E,一种新颖的机器人操作架构,通过利用具有通用场景理解和长期行动推理的视觉基础模型进行操作。具体来说,我们采用在大量图像和可提示掩模上预训练的Segment Anything (SAM)作为提取任务相关特征的基础模型,并在机器人数据上采用参数高效的微调来更好地理解具体情境。为了解决长期推理问题,我们开发了一种新颖的多通道热图,可以在单次传递中预测行动序列,显著提高了执行效率。来自各种指令跟随任务的实验结果表明,与基线相比,SAM-E在执行效率更高的同时实现了更优越的性能,并且在少量样本适应新任务方面显著提高了泛化能力。
- 图表
- 解决问题SAM-E论文试图通过使用视觉基础模型和序列模仿来解决3D操作中的场景理解和动作预测问题,以提高机器人操作的泛化性和执行效率。
- 关键思路SAM-E的关键思路是采用Segment Anything (SAM)预训练模型来提取任务相关特征,并在机器人数据上进行参数高效微调,以实现更好的场景理解。此外,论文还开发了一种新型的多通道热图来解决长时间推理的问题,从而提高了执行效率。
- 其它亮点论文在各种指令跟随任务中进行了实验,证明了SAM-E相比基线方法具有更高的执行效率和更好的泛化性能。此外,论文还开源了代码,并提供了使用的数据集和评估指标。
- 在最近的相关研究中,一些论文探索了使用深度学习来解决机器人操作中的问题,如多任务学习、增强学习等。例如,有一篇名为“Robot Learning Manipulation Action Plans by ‘Watching’ Unconstrained Videos from the World Wide Web”的论文提出了使用互联网上的视频来学习机器人操作的方法。
沙发等你来抢
去评论
评论
沙发等你来抢