HopaDIFF: Holistic-Partial Aware Fourier Conditioned Diffusion for Referring Human Action Segmentation in Multi-Person Scenarios

2025年06月11日
  • 简介
    动作分割是高层次视频理解中的核心挑战,旨在将未剪辑的视频划分为若干片段,并为每个片段分配来自预定义动作集合的标签。现有的方法主要针对单人活动且固定动作序列的问题,而忽略了多人场景。在本工作中,我们首次探索了多人场景下的文本指引式人类动作分割,其中一段文本描述用于指定需要分割的目标人物。我们引入了首个针对“指代式人类动作分割”(Referring Human Action Segmentation)的数据集 RHAS133,该数据集从 133 部电影中构建,包含 137 种细粒度动作,总计 33 小时的视频数据,并配有适用于这一新任务的文本描述。通过基于视觉语言模型(VLM)的特征提取器,在 RHAS133 数据集上对现有动作识别方法进行基准测试,结果显示其性能有限,且对目标人物的视觉线索聚合能力较差。为解决这一问题,我们提出了一种整体-局部感知的傅里叶条件扩散框架,即 HopaDIFF。该框架利用一种新颖的跨输入门控注意力 xLSTM 来增强整体与局部的长距离推理能力,并引入一种新的傅里叶条件以实现更精细的控制,从而提升动作分割生成的质量。HopaDIFF 在 RHAS133 数据集的多种评估设置下取得了最先进的结果。代码已开源,可访问 https://github.com/KPeng9510/HopaDIFF.git 获取。
  • 图表
  • 解决问题
    该论文试图解决多人群体场景下的文本指引人类动作分割问题,这是一个尚未被充分研究的新问题。现有的方法主要集中在单人活动和固定的序列动作上,而忽略了复杂的多人员场景。
  • 关键思路
    论文提出了一种名为HopaDIFF的框架,通过结合全局部感知的Fourier条件扩散模型和交叉输入门控注意力xLSTM来增强全局与局部的长距离推理能力。这一思路创新性地引入了文本描述以定位目标人物,并利用细粒度特征提取实现更精确的动作分割。
  • 其它亮点
    1. 提出了首个针对文本指引多人员动作分割的数据集RHAS133,包含133部电影、137种细粒度动作标注及33小时视频数据;2. 实验验证了现有方法在新任务上的局限性;3. HopaDIFF在多种评估设置下达到了SOTA性能;4. 开源代码已发布至https://github.com/KPeng9510/HopaDIFF.git,为后续研究提供了基础。
  • 相关研究
    相关研究包括:1. 动作识别领域的经典方法,如I3D和SlowFast;2. 视觉语言模型(VLM)在跨模态任务中的应用;3. 扩散模型在生成任务中的成功案例,例如Denoising Diffusion Probabilistic Models (DDPM);4. 多人动作分析的相关工作,如PoseTrack和Multi-person Action Recognition。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论