Semantically Guided Representation Learning For Action Anticipation

2024年07月02日
  • 简介
    行动预测是一项任务,其目的是从部分观察到的事件序列中预测未来的活动。然而,这项任务面临内在的未来不确定性和推理相互关联行动的困难。与之前专注于推断更好的视觉和时间信息的工作不同,我们集中于学习行动表示,这些表示基于典型的行动模式和上下文共现,意识到它们的语义互联性。为此,我们提出了一种新颖的语义引导表示学习(S-GEAR)框架。S-GEAR学习视觉行动原型,并利用语言模型来构建它们之间的关系,引导语义。为了了解S-GEAR的有效性,我们在四个行动预测基准测试中对其进行了测试,与之前的工作相比获得了改进的结果:在Epic-Kitchen 55、EGTEA Gaze+和50 Salads的Top-1准确度上分别提高了3.5、2.7和3.5个绝对点,Epic-Kitchens 100的Top-5召回率提高了0.8。我们进一步观察到,S-GEAR有效地将语言和视觉原型之间的几何关联转移。最后,S-GEAR通过展示行动语义互联性的复杂影响,开辟了行动预测任务的新研究前沿。
  • 图表
  • 解决问题
    解决问题:本论文旨在解决动作预测中的困难,即未来的不确定性和相互关联动作的推理难度。同时,它还试图通过学习基于典型动作模式和上下文共现的动作表示,使其具有语义互联性。
  • 关键思路
    关键思路:本论文提出了一种新的框架S-GEAR,它学习视觉动作原型并利用语言模型来结构化它们之间的关系,从而引出了语义性。与先前的研究相比,S-GEAR更关注动作之间的语义互联性。
  • 其它亮点
    亮点:论文在四个动作预测基准测试中进行了测试,相比之前的工作,S-GEAR在Epic-Kitchen 55、EGTEA Gaze+和50 Salads上的Top-1准确率分别提高了3.5、2.7和3.5个百分点,在Epic-Kitchens 100的Top-5召回率上提高了0.8个百分点。此外,S-GEAR有效地将动作之间的几何关联从语言转移到视觉原型中。论文开创了动作预测任务的新研究方向,展示了动作语义互联性的复杂影响。
  • 相关研究
    相关研究:最近的相关研究包括《Temporal Convolutional Networks for Action Segmentation and Detection》、《Action Recognition by Learning Deep Multi-scale Spatio-temporal Local Features》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论