Social-Transmotion: Promptable Human Trajectory Prediction

简介

准确的人类轨迹预测对于自动驾驶汽车、机器人和监控系统等应用至关重要。然而，现有模型在利用人类在空间导航时下意识传达的非语言社交线索方面通常存在不足。为了解决这个问题，我们引入了Social-Transmotion，这是一个通用模型，利用变形器的能力来处理各种各样的视觉线索，捕捉人类行为的多模态性。我们将自然语言处理（NLP）中提示的想法翻译到人类轨迹预测的任务中，其中提示可以是地面上的一系列x-y坐标、边界框或身体姿势。这反过来增强了轨迹数据，从而提高了人类轨迹预测的准确性。我们的模型通过捕捉可用视觉线索之间的时空交互来展现出灵活性和适应性，无论它们是姿势、边界框还是两者的组合。通过遮罩技术，我们确保即使某些视觉线索不可用，我们的模型仍然有效，尽管有全面的视觉数据会进一步提高性能。我们深入探讨了使用2D与3D姿势以及有限的姿势集的优点。此外，我们调查了空间和时间注意力图，以确定哪些关键点和姿势帧对于优化人类轨迹预测至关重要。我们的方法在多个数据集上得到验证，包括JTA、JRDB、道路交通中的行人和骑车人以及ETH-UCY。代码公开可用：https://github.com/vita-epfl/social-transmotion
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提高人类轨迹预测的准确性，尤其是利用人类非语言社交线索
关键思路

Social-Transmotion模型，利用transformers处理多种视觉线索，从而捕捉人类行为的多模态性。通过将prompt的概念从NLP领域引入到人类轨迹预测中，可以增强轨迹数据，提高预测性能。模型可灵活适应不同的视觉线索，包括姿势、边界框等，同时通过掩蔽技术确保模型在某些视觉线索不可用时的有效性。
其它亮点

论文使用了多个数据集进行验证，包括JTA、JRDB、Pedestrians and Cyclists in Road Traffic、ETH-UCY。模型的代码公开可用。论文还探讨了2D和3D姿势的优缺点，以及空间和时间注意力图在优化人类轨迹预测方面的作用。
相关研究

最近的相关研究包括使用LSTM的轨迹预测方法、使用图神经网络的预测方法等。

Social-Transmotion: Promptable Human Trajectory Prediction

提问交流

提问交流