Paper:
https://arxiv.org/abs/2204.08770
Code:
https://github.com/MediaBrain-SJTU/GroupNet
导读
智能体的交互关系普遍存在于各式各样的场景中,比如自动驾驶中的汽车规避碰撞,球场上球员的对抗和配合,物理世界中的各种相互作用等等。在多智能体轨迹预测问题中,揭秘多个智能体之间相互作用是精确和可解释的轨迹预测的基础,而这些复杂的交互关系尚未被前人工作充分地探讨。前人的工作主要集中在成对的交互关系上,但群体间的交互关系普遍发生于现实生活的各种场景:比如密集人流的运动,鱼群的群体迁徙等等。
现实生活中群体交互普遍存在
因此,为了更全面对交互关系进行建模,文章提出了GroupNet, 一个基于多尺度超图的神经网络,从两方面出发进行建模:交互捕获和交互表示学习。在交互捕获的角度,GroupNet提出了一种可训练的多尺度超图来捕获不同大小群体间的交互。从交互表征学习的角度,GroupNet提出了一种端到端学习的三元素的交互表示方式,包括交互作用强度和类别。
GroupNet采用多尺度超图来建模多个不同大小群体间的交互关系,并对交互关系进行一定的推理。
贡献
多智能体轨迹预测,就是在给定以往几帧的多个智能体的位置信息的情况下,该任务需要预测未来智能体可能会出现的运动轨迹。这一任务在自动驾驶、监控系统、体育分析和物理系统等都有着重要的应用,下图是来自NBA篮球比赛的一个实例:
从过去的轨迹中揭开多个智能体之间的相互作用的神秘面纱是精确和可解释的轨迹预测的基础。然而,以前的工作只考虑具有有限关系推理的成对交互。
为了促进更全面的关系推理交互建模,本文提出了GroupNet,一种多尺度超图神经网络,它在交互捕获和表示学习方面都是新颖的。超图(Hypergraph)是一种广义上的图,它的一条超边可以连接任意数量的顶点。如下图例子所示:
从交互捕获的角度来看,本文提出了一个可训练的多尺度超图来捕获多个组大小的成对和分组交互。从交互表示学习的角度来看,本文提出了一种可以端到端学习的三元素格式,并明确地推理一些关系因素,包括交互强度和类别。本文将 GroupNet 应用到基于 CVAE 的预测系统和以前最先进的预测系统中,以通过关系推理来预测社会上似是而非的轨迹。为了验证关系推理的能力,本文用合成物理模拟进行实验,以反映捕捉群体行为、推理交互强度和交互类别的能力。为了验证预测的有效性,本文对三个真实世界的轨迹预测数据集进行了广泛的实验,包括 NBA、SDD 和 ETH-UCY;本文展示了使用 GroupNet,基于 CVAE 的预测系统优于最先进的方法。本文还表明,添加 GroupNet 将进一步提高以前最先进的预测系统的性能。
总的来说,本文介绍了群体交互建模和交互关系推理在轨迹预测中的应用,通过学习多尺度超图以及三元素的交互表达建模来更好更全面的对交互关系进行建模。在不同的仿真以及真实数据集上,均取得了优异的性能,经过细致地分析和可视化,验证了模型中各种设计的合理性。
方法
GroupNet的核心思想是学习一个多尺度的交互超图,其中,每一个点是一个运动智能体,每一条超边是智能体间的交互。本文分为两步进行多尺度的交互超图的学习:多尺度超图结构推理,多尺度超图神经信息传递,分别用于多尺度超图结构的获取以及多尺度超图特征表达的获取。下面本文就对这两步进行介绍:如何推理多尺度超图结构?如何基于多尺度超图结构进行信息传递?
3.1 如何推理多尺度超图结构?
超图结构的推理基于一个关联矩阵,本文采用attention的方式计算关联矩阵。在人思维的预想中,一组构成群体交互的智能体应当互相有着很高的关联度。因此,为了获得不同大小的交互的群体,即超图中的超边连接,本文将此转换为了寻找不同大小的最大子矩阵的问题。为确保每个智能体参与一个群体,本文以每一个智能体为中心都进行了不同尺度的最大子矩阵的寻找,具体细节详见论文。
3.2 如何基于多尺度超图结构进行信息传递?
基于推理的多尺度超图结构,本文借鉴了“神经信息传递”(neural message passing, NMP)的方式,在群组节点之间进行神经网络化的信息传递。本文分为两步进行信息传递:点到超边(Node-to-Hyperedge)和超边到点(Hyperedge-to-Node)。在点到超边中,本文利用多个点的特征计算连接超边的特征,在此过程中,本文将超边特征分解为三个量:交互强度,交互种类以及每个种类对应的交互函数。其中交互种类用于学习交互的具体类别,对于每个类别,对应的交互函数用于建模该类的具体交互形式,交互强度用于学习交互的激烈程度。在超边到点中,每个点聚合了相连的超边的特征,即每个智能体考虑与之相关的交互。具体细节详见论文。下图给出了GroupNet的整体结构:
GroupNet整体结构,GroupNet分为两步:多尺度超图结构推理,多尺度超图神经信息传递
3.3 预测框架
以GroupNet为核心,本文提出了一个基于CVAE的轨迹预测框架,主要分为两部分:Encoder和Decoder。Encoder用于获取各个智能体的特征表达以及隐变量的特征表达。Decoder则进行特征的解码,用于同时预测未来轨迹和重建过去轨迹,如下图所示:
预测框架结构
实验
4.1 仿真数据集结果
本文在仿真数据集上分别进行了模型对于群体捕获,交互关系推理,和交互强度推理的验证。对于群体捕获,本文设计了两种交互关系:三个小球进行Y形轻杆链接,两个小球进行弹簧连接。下图是本文的关联矩阵和多尺度超图的输出结果。可以看到,本文能够有效的捕捉群体关系。
对于交互关系推理,本文设计了三种交互关系:自由运动,弹簧连接和Y形轻杆连接。下图是三类数据的例子和本文的交互关系分类结果,可以看到,本文的模型对交互关系有准确的识别能力。
对于交互强度推理,本文进行了带电小球的实验,紫色小球的带电大小不一,从而影响排斥力进一步影响黄色小球的运动轨迹,本文绘制了交互强度-带电量的曲线,可以看到,带电量越大,推理的交互强度越大,反应了本文的模型能较好的建模交互强度。
4.2 真实数据集结果
本文在一个NBA运动数据集,以及两个行人数据集SDD和ETH上进行实验,和传统的轨迹预测方法进行对比。在NBA数据集上,本文的方法取得了非常大的提升。同时,将本文的GroupNet加入到前人的模型中,也能大幅提升预测的准确性:
在SDD和ETH数据集上,本文的方法也达到了SOTA的效果。同时,将本文的GroupNet加入到前人的模型中,也能大幅提升预测的准确性:
4.3 可视化结果
下图本文展现了两个NBA场景下进行预测的可视化示例,可以看到,本文的方法有着良好的预测性能,即使在激烈快速运动中,本文的方法也可以较准确的进行预测。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢