How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation

简介

随着随机生成模型在机器人策略学习中的兴起，端到端的视觉动作策略通过从人类演示中学习，越来越成功地解决了复杂任务。然而，由于真实世界的评估成本只能为用户提供少量策略试验，因此准确评估这些策略的性能仍然是一个挑战。这种情况加剧了分布转移，在部署过程中导致性能发生不可预测的变化。为了严格评估行为克隆策略，我们提出了一个框架，使用最少的实验策略试验，在任意环境下提供机器人性能的紧密下限。值得注意的是，通过将标准随机排序应用于机器人性能分布，我们为给定任务的整个性能分布（通过对累积分布函数进行边界限制）提供了最坏情况下的边界。我们建立在已有的统计结果之上，确保边界以用户指定的置信水平和紧密度保持，并且尽可能少地进行策略试验。在实验中，我们评估了在模拟和硬件中进行视觉动作操作的策略。具体而言，我们（i）在模拟的操作环境中经验证实了边界的保证，（ii）发现了学习策略在硬件上部署后对新的真实世界环境的泛化程度，并且（iii）在超出分布范围的环境中严格比较了两个策略的性能。我们的实验数据、代码和置信边界的实现是开源的。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决如何在有限的实验策略执行次数下，准确评估基于行为克隆的机器人策略在任意环境中的性能问题。
关键思路

通过在机器人性能分布上应用标准随机排序，提供了任意环境下机器人性能的最差情况下的下限估计，并通过累积分布函数的边界提供了整个性能分布的下限估计，从而保证了用户指定的置信水平和紧度。
其它亮点

论文提出的框架可以在最少的实验策略执行次数下提供对机器人策略性能的严格下限估计，并且在模拟和硬件实验中进行了验证。论文还开源了实验数据和代码。
相关研究

在该领域的相关研究包括：End-to-end visuomotor policies, robot policy learning, stochastic generative models, behavior cloning policies等。

How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation

提问交流

提问交流