Dense Policy: Bidirectional Autoregressive Learning of Actions

2025年03月17日
  • 简介
    主流的视动政策主要依赖于生成模型来进行整体动作预测,而当前的自回归政策在预测下一个标记或片段时,表现出的结果并不理想。这促使我们寻找更有效的学习方法,以充分释放自回归政策在机器人操作中的潜力。本文提出了一种双向扩展的学习方法,称为密集政策(Dense Policy),为自回归政策在动作预测中的应用建立了一个新的范式。该方法采用轻量级的仅编码器架构,以粗到精的方式,从初始的单帧逐步展开动作序列至目标序列,并实现对数时间推断。大量实验验证了我们的密集政策具有更强的自回归学习能力,能够超越现有的整体生成政策。我们的政策、示例数据和训练代码将在论文发表后公开发布。项目页面:https://selen-suyue.github.io/D
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决如何提升自回归策略在机器人操作中的表现问题,特别是针对当前主流的生成模型方法(如整体动作预测)和效果欠佳的自回归策略之间的差距。这是一个现有问题的新探索方向。
  • 关键思路
    论文提出了一种名为Dense Policy的双向扩展学习方法,采用轻量级的仅编码器架构,在对数时间内通过粗到细的方式逐步展开动作序列。这种方法旨在改进自回归策略的学习能力,并超越现有的整体生成模型方法。
  • 其它亮点
    论文通过广泛的实验验证了Dense Policy在自回归学习上的优越性,表明其可以超过现有的整体生成策略。实验设计包括多种机器人操作任务,并使用公开数据集进行测试。此外,作者承诺在论文发表后开源代码、示例数据和训练代码,便于后续研究者复现和改进。值得进一步研究的方向包括优化Dense Policy的架构以及将其应用于更复杂的机器人任务。
  • 相关研究
    近期相关研究包括:1) 使用生成模型进行动作预测的研究,例如“Learning Latent Plans from Play”;2) 自回归模型在机器人控制中的应用,例如“Autoregressive Policies for Continuous Control”;3) 粗到细策略学习方法的研究,例如“Hierarchical Reinforcement Learning with Demonstrations”。这些研究为Dense Policy提供了理论和技术基础,但尚未实现类似的高效自回归策略。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问