Poly-Autoregressive Prediction for Modeling Interactions

2025年02月12日
  • 简介
    我们介绍了一个用于预测多智能体环境中智能体行为的简单框架。与自回归(AR)任务(如语言处理)不同,我们的关注点在于多个智能体之间的互动场景,这些互动受到物理约束和内在动机的影响。为此,我们提出了多自回归(PAR)建模方法,该方法通过分析自我智能体的状态历史以及其它交互智能体的过去和当前状态来预测自我智能体的未来行为。在核心层面,PAR将所有智能体的行为表示为一系列标记,每个标记代表特定时间步长内智能体的状态。通过最小的数据预处理更改,我们展示了PAR可以应用于三个不同的问题:社交情境中的人类行为预测、自动驾驶车辆的轨迹预测以及手-物交互期间的物体姿态预测。使用小型的概念验证变压器主干结构,PAR在这三种场景中的表现均优于AR。项目网站可以在https://neerja.me/PAR/ 查看。
  • 图表
  • 解决问题
    该论文试图解决在多智能体环境中预测单个智能体行为的问题,特别是在物理约束和内在动机影响下的交互场景。与传统的自回归(AR)任务不同,这里关注的是多个智能体之间的复杂互动。这并不是一个全新的问题,但该方法尝试以一种更综合的方式处理这一挑战。
  • 关键思路
    关键思路是引入Poly-Autoregressive (PAR) 建模,它通过考虑自我智能体的状态历史以及其他相互作用智能体的过去和当前状态来预测自我智能体的未来行为。PAR将所有智能体的行为表示为一系列标记,每个标记代表特定时间步长上的智能体状态。这种方法的新颖之处在于它能够同时处理多个智能体的行为预测,并且适用于多种不同的应用场景。
  • 其它亮点
    论文展示了PAR模型可以在三个不同领域——人类社交情境中的动作预测、自动驾驶车辆轨迹预测以及手-物交互期间的对象姿态预测中超越传统的AR模型。实验使用了少量的概念验证变压器作为后端支持。此外,项目网站提供了进一步的信息和资源链接。值得注意的是,作者们还开源了部分代码,便于后续研究者复现结果并继续深入研究。
  • 相关研究
    最近在这个领域内有许多相关研究,例如《Social LSTM: Human Trajectory Prediction in Crowded Spaces》探讨了拥挤空间中的人类轨迹预测;《End-to-end Learning of Driving Models from Large-scale Video Datasets》研究了从大规模视频数据集中端到端学习驾驶模型;还有《Learning Interaction Dynamics for Multi-Agent Systems via Neural Process》探索了通过神经过程学习多智能体系统的交互动态。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论