- 简介机器人必须规划精确的动作点来准确可靠地执行任务,从在桌子上重新排列物体到把杂货放进货架。尽管最近采用了视觉语言模型(VLM)来控制机器人行为,但是VLM在使用语言精确表述机器人动作方面仍然存在困难。我们介绍了一个自动合成数据生成流水线,该流水线可以对机器人领域和需求进行指令调整的VLM进行训练。使用该流水线,我们训练了RoboPoint,一种VLM,它可以根据语言指令预测图像关键点的可行性。与其他方法相比,我们的方法不需要收集真实世界数据或人类演示,因此在各种环境和视角下更具可扩展性。此外,RoboPoint是一个通用模型,可以实现多种下游应用,如机器人导航、操作和增强现实(AR)辅助。我们的实验表明,RoboPoint在预测空间可行性的准确性方面比最先进的VLM(GPT-4o)和视觉提示技术(PIVOT)提高了21.8%,在下游任务成功率方面提高了30.5%。项目网站:https://robo-point.github.io。
- 图表
- 解决问题论文旨在通过引入自动合成数据生成管道,训练一个可用于机器人领域的视觉语言模型(VLM),以提高机器人行为的准确性和可靠性。
- 关键思路使用自动合成数据生成管道训练RoboPoint,一个能够根据语言指令预测图像关键点可达性的视觉语言模型。相比于当前的方法,RoboPoint不需要收集真实世界的数据或人类演示,因此更具可扩展性。
- 其它亮点RoboPoint是一个通用模型,可用于机器人导航、操作和增强现实(AR)辅助等多个领域。实验结果表明,RoboPoint在预测空间可达性的准确性和下游任务的成功率方面比当前最先进的VLM(GPT-4o)和视觉提示技术(PIVOT)分别提高了21.8%和30.5%。论文提供了项目网站和开源代码。
- 近期的相关研究包括:1. PIVOT: A Visual Question Answering Benchmark for Product Information; 2. GPT-4o: A Large-Scale Transformer-Based Language Model for Robot Control; 3. Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout.
沙发等你来抢
去评论
评论
沙发等你来抢