ActionDiffusion: An Action-aware Diffusion Model for Procedure Planning in Instructional Videos

2024年03月13日
  • 简介
    我们提出了ActionDiffusion——一种新颖的扩散模型,用于指导视频中的过程规划,这是第一个在扩散模型中考虑行动之间时间相互依赖关系的方法。这种方法与现有的方法形成鲜明对比,后者未能利用行动执行顺序中可用的丰富信息内容。我们的方法通过将行动信息投影到噪声空间中来统一学习行动之间的时间依赖关系和去噪过程。这是通过在噪声添加阶段中添加行动嵌入到噪声掩模中,以及通过引入注意力机制在噪声预测网络中学习不同行动步骤之间的相关性来实现的。我们在三个指导视频基准数据集(CrossTask、Coin和NIV)上进行了广泛的实验,并表明我们的方法在CrossTask和NIV上的所有指标以及Coin数据集上除准确性以外的所有指标上均优于以前的最先进方法。我们表明,通过将行动嵌入添加到噪声掩模中,扩散模型可以更好地学习行动的时间依赖关系并提高过程规划的性能。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决指导视频中的程序规划问题,旨在利用动作之间的时间依赖性来提高模型的性能。这是否是一个新问题?
  • 关键思路
    论文提出了一种新的扩散模型,将动作信息投影到噪声空间中,通过在噪声掩模中添加动作嵌入来统一学习动作之间的时间依赖关系和去噪过程,同时引入注意力机制来学习不同动作步骤之间的相关性。相比之前的方法,这种方法更好地利用了动作执行的特定顺序中的丰富信息。
  • 其它亮点
    论文在三个指导视频基准数据集(CrossTask、Coin和NIV)上进行了广泛的实验,并表明我们的方法在CrossTask和NIV上的所有指标上优于之前的最先进方法,在Coin数据集上除准确性之外的所有指标也优于之前的方法。通过在噪声掩模中添加动作嵌入,扩散模型可以更好地学习动作的时间依赖关系并提高程序规划的性能。
  • 相关研究
    最近的相关研究包括:'Learning to Learn Single-Step Imitation with Continuous Time Methods'、'Learning to Learn by Gradient Descent by Gradient Descent'、'Learning to Learn without Gradient Descent by Gradient Descent'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问