准确的人类轨迹预测对于自动驾驶汽车、机器人和监控系统等应用至关重要。然而,现有模型在利用人类在空间导航时下意识传达的非语言社交线索方面通常存在不足。为了解决这个问题,我们引入了Social-Transmotion,这是一个通用模型,利用变形器的能力来处理各种各样的视觉线索,捕捉人类行为的多模态性。我们将自然语言处理(NLP)中提示的想法翻译到人类轨迹预测的任务中,其中提示可以是地面上的一系列x-y坐标、边界框或身体姿势。这反过来增强了轨迹数据,从而提高了人类轨迹预测的准确性。我们的模型通过捕捉可用视觉线索之间的时空交互来展现出灵活性和适应性,无论它们是姿势、边界框还是两者的组合。通过遮罩技术,我们确保即使某些视觉线索不可用,我们的模型仍然有效,尽管有全面的视觉数据会进一步提高性能。我们深入探讨了使用2D与3D姿势以及有限的姿势集的优点。此外,我们调查了空间和时间注意力图,以确定哪些关键点和姿势帧对于优化人类轨迹预测至关重要。我们的方法在多个数据集上得到验证,包括JTA、JRDB、道路交通中的行人和骑车人以及ETH-UCY。代码公开可用:https://github.com/vita-epfl/social-transmotion
提问交流