- 简介我们提出了Premier-TACO,这是一种多任务特征表示学习方法,旨在提高顺序决策任务中少样本策略学习的效率。Premier-TACO利用多任务离线数据集的子集进行预训练通用特征表示,该表示捕捉关键的环境动态,并使用最少的专家演示进行微调。它推进了时间行为对比学习(TACO)目标,TACO在视觉控制任务中具有最先进的结果,通过结合一种新颖的负例采样策略。这种策略在显著提高TACO的计算效率方面至关重要,使得大规模多任务离线预训练成为可能。我们在包括Deepmind控制套件、MetaWorld和LIBERO在内的各种连续控制基准测试中进行了广泛的实证评估,展示了Premier-TACO在预训练视觉表示方面的有效性,显著增强了对新任务的少样本模仿学习。我们的代码、预训练数据以及预训练模型检查点将在https://github.com/PremierTACO/premier-taco发布。我们的项目网页位于https://premiertaco.github.io。
- 图表
- 解决问题Premier-TACO论文试图提高序列决策任务中的少样本策略学习效率,解决少样本学习的问题。
- 关键思路Premier-TACO使用多任务离线数据集进行预训练,通过最小化的专家演示进行微调,提高了视觉表示的预训练效果。同时,Premier-TACO提出了一种新的负样本采样策略,显著提高了TACO的计算效率。
- 其它亮点论文在多个连续控制基准测试中进行了广泛的实证评估,包括Deepmind Control Suite、MetaWorld和LIBERO等数据集,证明了Premier-TACO在预训练视觉表示方面的有效性,显著提高了新任务的少样本模仿学习效果。论文提供了代码、预训练数据和预训练模型检查点。
- 最近的相关研究包括MAML、Reptile、Meta-Learning RL等。
沙发等你来抢
去评论
评论
沙发等你来抢