Bidirectional Progressive Transformer for Interaction Intention Anticipation

2024年05月09日
  • 简介
    交互意图预测旨在共同预测未来的手部轨迹和交互热点。现有研究通常将轨迹预测和交互热点预测视为独立的任务,或仅考虑轨迹对交互热点的影响,导致随着时间的推移预测误差的积累。然而,手部轨迹和交互热点之间存在更深层次的内在联系,允许它们之间的持续相互校正。基于这种关系,建立了一种新的双向渐进变压器(BOT)方法,将双向渐进机制引入到交互意图预测中。BOT通过空间-时间重建模块最大化利用最后一个观察帧的空间信息,减轻第一人称视频中视角变化引起的冲突。随后,基于两个独立的预测分支,引入了双向渐进增强模块,以相互改善手部轨迹和交互热点的预测,以减小误差积累。最后,我们认识到人类自然行为中的内在随机性,采用了轨迹随机单元和C-VAE,分别为轨迹和交互热点引入适当的不确定性。我们的方法在三个基准数据集Epic-Kitchens-100、EGO4D和EGTEA Gaze+上取得了最先进的结果,表现优异,适用于复杂情境。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:该论文旨在联合预测未来手部轨迹和交互热点,解决了以往研究将轨迹预测和交互热点预测视为独立任务的问题。
  • 关键思路
    关键思路:该论文提出了一种新的双向渐进Transformer(BOT)模型,通过双向渐进机制来提高手部轨迹和交互热点的预测准确性,同时引入了轨迹随机单元和C-VAE来增加模型的不确定性。
  • 其它亮点
    其他亮点:该论文在Epic-Kitchens-100、EGO4D和EGTEA Gaze+三个基准数据集上实现了最先进的结果。该论文的实验设计详细,数据集广泛,模型开源,同时提出的BOT模型和轨迹随机单元具有一定的创新性。
  • 相关研究
    相关研究:目前在该领域的相关研究包括“TrajectoryNet: An Embedded Model for Trajectory Classification”、“Joint Trajectory Prediction and Classification in Hand-object Manipulation”等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问