- 简介我们提出了Waymo Open Motion Dataset-Reasoning(WOMD-Reasoning),这是一个基于WOMD构建的语言注释数据集,重点描述和推理驾驶场景中的交互和意图。以往的语言数据集主要捕捉由于距离过近而引起的交互。然而,由交通规则和人类意图引起的交互,可能发生在较远的距离上,尽管这些交互非常常见且更具挑战性,但尚未得到充分覆盖。因此,我们的WOMD-Reasoning广泛关注这些交互,提供了总计409,000个问题和答案,涵盖各种类型的交互。此外,WOMD-Reasoning是迄今为止涵盖真实驾驶场景的最大的问答数据集,包括约3百万个问题和答案,涉及自主驾驶的各种主题,从地图描述、运动状态描述到代理人的交互、行为和意图的叙述和分析。这些大量的文本信息使得可以对驾驶相关的大型语言模型(LLMs)进行微调,以适用于各种应用,如场景描述、预测、规划等。通过整合WOMD-Reasoning中的交互和意图语言,我们看到了最先进的轨迹预测模型Multipath++的性能显著提高,$MR_6$和$minFDE_6$分别提高了10.14%和6.90%,证明了WOMD-Reasoning的有效性。我们希望WOMD-Reasoning能够赋予驾驶中的LLMs更好的交互理解和行为推理能力。该数据集可在https://waymo.com/open/download上获取。
-
- 图表
- 解决问题本论文旨在通过构建一种基于Waymo Open Motion Dataset的语言注释数据集WOMD-Reasoning,重点描述和推理驾驶场景中的交互和意图,以提高自动驾驶中的交互理解和行为推理。
- 关键思路WOMD-Reasoning通过收集真实世界驾驶场景中的大量问题和答案,特别是关于交通规则和人类意图的交互,为自然语言处理和自动驾驶领域的研究提供了重要的数据集,同时证明使用该数据集可以提高最先进的轨迹预测模型的性能。
- 其它亮点WOMD-Reasoning是迄今为止关于真实世界驾驶场景中自然语言注释最大的数据集,包含大约300万个关于自动驾驶的问题和答案,并且重点关注长距离交互和意图描述。此外,论文还提出了一种基于WOMD-Reasoning的轨迹预测模型Multipath++,并证明使用WOMD-Reasoning可以显著提高其性能。
- 在自然语言处理和自动驾驶领域,已经有很多关于交互理解和行为推理的研究。例如,A Survey of Natural Language Generation Techniques with a Focus on Dialogue Systems和End-to-End Learning of Driving Models from Vision and Language等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流