DIDI: Diffusion-Guided Diversity for Offline Behavioral Generation

2024年05月23日
  • 简介
    本文提出了一种名为DIffusion-guided DIversity(DIDI)的新方法,用于离线行为生成。DIDI的目标是从混合的无标签离线数据中学习一组多样化的技能。我们通过利用扩散概率模型作为先验来指导学习过程并规范策略,从而实现这一目标。通过优化包含多样性和扩散引导规范化的联合目标,我们鼓励出现多样化的行为,同时保持与离线数据的相似性。在四个决策制定领域(Push,Kitchen,Humanoid和D4RL任务)的实验结果表明,DIDI在发现多样化和有辨识力的技能方面是有效的。我们还介绍了技能拼接和技能插值,突出了学习技能空间的通用性质。此外,通过结合外在奖励函数,DIDI实现了奖励引导的行为生成,促进了从次优数据中学习多样化和最优行为。
  • 图表
  • 解决问题
    本文提出了一种名为DIffusion-guided DIversity (DIDI)的新方法,旨在从无标签的离线数据中学习多样化的技能。该方法的目标是在维持与离线数据相似性的同时,通过利用扩散概率模型作为先验来指导学习过程并规范策略,从而学习到多样化的技能集合。
  • 关键思路
    通过采用扩散概率模型作为先验来指导学习过程并规范策略,从而实现从无标签的离线数据中学习多样化的技能。
  • 其它亮点
    本文提出的DIDI方法在四个决策制定领域(Push、Kitchen、Humanoid和D4RL任务)中进行实验,结果表明DIDI能够有效地发现多样化和有区别性的技能。此外,本文还引入了技能拼接和技能插值,展示了学习到的技能空间的通用性。通过引入外在奖励函数,DIDI实现了奖励引导的行为生成,从而促进从次优数据中学习多样化和最优行为。
  • 相关研究
    与本文相关的研究包括:Offline Reinforcement Learning (RL)、Inverse Reinforcement Learning (IRL)、Generative Adversarial Imitation Learning (GAIL)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论