Autonomous Improvement of Instruction Following Skills via Foundation Models

简介

具有智能指令跟随功能且能够从自主收集的经验中改进的机器人具有改变机器人学习的潜力：不再需要收集昂贵的远程操作演示数据，机器人的大规模部署可以快速收集更多的自主数据，这些数据可以共同提高它们的性能。然而，自主改进需要解决两个关键问题：（i）完全自动化可扩展的数据收集程序，可以收集多样化的、语义有意义的机器人数据；（ii）从非最优自主数据中学习，没有人类注释。为此，我们提出了一种新的方法来解决这些挑战，允许指令跟随策略从自主收集的数据中改进，无需人类监督。我们的框架利用视觉语言模型在新环境中收集和评估语义有意义的经验，然后利用指令跟随任务的分解，将其分为（语义）语言条件的图像生成和（非语义）目标达成，这使得从这些自主收集的数据中改进变得更加实用，而无需任何人类注释。我们在实际环境中进行了大量实验，证明了我们方法的有效性，并发现在一系列未见过的环境中，机器人策略可以通过自主收集的数据显著改进。我们开源了我们的语义自主改进流水线的代码，以及我们在五个桌面环境中收集的自主数据集，共30.5K条轨迹。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何实现智能指令跟随机器人在大规模自主数据收集的情况下进行自我提高？
关键思路

利用视觉-语言模型将语义上有意义的经验收集和评估，并将指令跟随任务分解为（语义）语言条件下的图像生成和（非语义）目标达成，从而实现在没有任何人类注释的情况下从自主收集的数据中提高。
其它亮点

论文提出了一个新的方法，可以自主收集数据并在没有人类监督的情况下提高指令跟随策略的性能。实验结果表明，在新环境中，机器人策略可以通过自主收集的数据显着提高。作者还开源了他们的代码和数据集，为领域内的进一步研究提供了便利。
相关研究

最近的相关研究包括：《End-to-End Robotic Reinforcement Learning without Reward Engineering》、《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》等。

Autonomous Improvement of Instruction Following Skills via Foundation Models

提问交流

提问交流