- 简介离线数据对于教授机器人复杂行为既有价值又实用。理想情况下,学习代理不应受到可用演示的稀缺性的限制,而应该超越训练分布进行泛化。然而,真实世界场景的复杂性通常需要大量数据,以防止神经网络策略捕捉到虚假相关性和学习非因果关系。我们提出了CAIAC,一种数据增强方法,可以在没有在线环境交互的情况下从固定数据集中创建可行的合成转换。通过利用量化因果影响的原则性方法,我们能够通过在数据集中独立轨迹之间交换状态空间中未受行动影响的部分来执行反事实推理。我们在实证中表明,这导致离线学习算法对分布转移的鲁棒性显著提高。
-
- 图表
- 解决问题提高离线学习算法对分布变化的鲁棒性
- 关键思路提出了一种数据增强方法CAIAC,可以在没有在线环境交互的情况下,从固定数据集中创建可行的合成转换,从而增加离线学习算法对分布变化的鲁棒性。该方法利用因果影响的原则进行反事实推理,通过在数据集中独立轨迹之间交换状态空间中未受行动影响的部分来实现。
- 其它亮点实验结果表明,CAIAC方法可以显著提高离线学习算法对分布变化的鲁棒性。论文还提供了用于评估因果影响的新方法。
- 最近的相关研究包括PETS和SLAC等论文,它们也探讨了在没有在线环境交互的情况下如何提高离线学习算法的鲁棒性。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流