机器学习 (ML) 的一项核心挑战是构建能够在复杂的实际环境中导航,并对口头或书面命令做出响应的代理 (Agents)。虽然如今的代理,包括机器人,通常可以在复杂的环境中导航,但它们还不能理解使用自然语言表达的导航目标,例如,“穿过右侧关闭的棕色双开门,然后站在椅子后面与桌子前面。”
这一挑战被称为视觉-语言导航 (Vision-and-Language Navigation, VLN),它需要对空间语言有深刻的理解。例如,要想识别“椅子后面与桌子前面” 的位置,就需要找到桌子,识别桌子的哪一部分被认为是前侧,找到离桌子前侧最近的椅子,识别这把椅子后面的区域,等等。虽然人们可以轻松理解并遵从上述这类指令,但目前基于 ML 的方法轻松解决很难解决类似挑战,需要一个系统能够更好地将语言与它所描述的物理世界联系起来。
为了促进该领域的发展,我们很高兴为 VLN 引入新数据集:Room-Across-Room (RxR)。如在 “Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding” 中所述,RxR 是 VLN 的第一个多语言数据集,包含了 126,069 条人工标注的导航指令,它们使用三种不同类型的语言 - 英语、印地语和泰卢固语。
每条指令描述一条通过照片级模拟器的路径,模拟器中充满着各种室内环境,它们来自 Matterport3D 数据集,其中包括居所、办公室和公共建筑的 3D 捕捉。为了追踪 VLN 的进展,我们还宣布了 RxR 挑战赛,这是一项鼓励机器学习社区基于 RxR 指令训练和评估他们自己的指令跟随代理的竞赛。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢