POV: Prompt-Oriented View-Agnostic Learning for Egocentric Hand-Object Interaction in the Multi-View World

Proceedings of the 31st ACM International Conference on Multimedia (2023). Association for Computing Machinery, New York, NY, USA, 2807-2816
2024年03月09日
  • 简介
    人类擅长将手-物互动的第三人称观察翻译成自我中心视角。然而,当前的方法很难复制这种从第三人称到第一人称的视角适应能力。虽然一些方法尝试从大规模视频数据集中学习视角无关的表示,但它们忽略了多个第三人称视角之间的关系。为此,本文提出了一种面向提示的视角无关学习(POV)框架,可以通过少量的自我中心视频实现这种视角适应。具体来说,我们在帧级别引入交互式遮罩提示来捕捉细粒度的动作信息,并在标记级别引入视角感知提示来学习视角无关的表示。为验证我们的方法,我们建立了两个基准,用于从多个第三人称视角转换到自我中心视角。我们在这些基准上进行了广泛的实验,证明了我们的POV框架和提示调整技术在视角适应和视角泛化方面的效率和有效性。我们的代码可在\url{https://github.com/xuboshen/pov_acmmm2023}上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决第三人称视角到第一人称视角的转换问题,以及提高视角适应性和视角泛化性。
  • 关键思路
    本文提出了一种基于Prompt-Oriented View-agnostic learning(POV)框架的解决方案,通过在帧级别引入交互式掩模提示来捕捉细粒度的动作信息,以及在令牌级别引入视角感知提示来学习视角不可知的表示。
  • 其它亮点
    本文建立了两个基准测试用于从多个第三人称视角转换到第一人称视角。实验结果表明,POV框架和提示调整技术在视角适应性和视角泛化性方面具有高效性和有效性。研究者提供了开源代码。
  • 相关研究
    最近相关的研究包括:'Large-scale Video Classification with Convolutional Neural Networks'、'Learning to learn from video and text via large-scale discriminative clustering'、'Learning Spatiotemporal Features with 3D Convolutional Networks'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问