- 简介本文研究了一种新的问题,称为“叙述动作评估”(NAE)。NAE旨在生成评估动作执行的专业评论。与传统任务(如基于分数的动作质量评估和涉及肤浅句子的视频字幕)不同,NAE专注于创造自然语言中的详细叙述。这些叙述提供了动作的复杂描述以及客观评估。NAE是一项更具挑战性的任务,因为它需要叙述灵活性和评估严谨性。一个已有的可能解决方案是使用多任务学习,其中叙述语言和评估信息分别预测。然而,由于任务之间的变化和语言信息与评估信息之间的差异,这种方法会导致单个任务的性能降低。为了解决这个问题,我们提出了一个提示引导的多模交互框架。该框架利用一对变压器来促进不同信息模态之间的交互。它还使用提示将得分回归任务转化为视频文本匹配任务,从而实现任务互动。为了支持该领域的进一步研究,我们使用高质量和全面的动作叙述重新注释了MTL-AQA和FineGym数据集。此外,我们建立了NAE的基准。广泛的实验结果证明了我们的方法优于单独学习方法和天真的多任务学习方法。数据和代码已在https://github.com/shiyi-zh0408/NAE_CVPR2024发布。
- 图表
- 解决问题本文探讨了一种新问题,即叙述性动作评估(NAE),旨在生成评估动作执行的专业评论。与传统任务不同,NAE侧重于创建详细的自然语言叙述,提供动作的复杂描述和客观评估。
- 关键思路本文提出了一种基于提示的多模态交互框架,利用一对transformers促进不同信息模态之间的交互,并使用提示将分数回归任务转化为视频文本匹配任务,从而实现任务交互。
- 其它亮点本文重新注释了MTL-AQA和FineGym数据集,发布了高质量和全面的动作叙述,并建立了NAE的基准。实验结果表明,我们的方法优于分别学习方法和朴素的多任务学习方法。研究者还开源了数据和代码。
- 近期相关研究包括:《Score-CAM: Score-Weighted Visual Explanations for Convolutional Neural Networks》和《VideoBERT: A Joint Model for Video and Language Representation Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢