- 简介在现实世界中,理解涉及物理世界的表达对于那些必须执行用户期望动作的机器人等人类辅助系统至关重要。在实际的参考解析中,系统必须将出现在用户交互中的语言信息与自我中心视图中观察到的视觉信息联系起来。为此,我们提出了一个多模态参考解析任务,并构建了一个日语对话数据集用于实际世界中的参考解析(J-CRe3)。我们的数据集包含两个人在家中扮演主人和助手机器人进行的真实对话的自我中心视图视频和对话音频。该数据集使用跨模态标签标注了话语中短语和视频帧中的物体边界框之间的关系。这些标签包括间接参考关系,如谓词-论元结构和桥接参考,以及直接参考关系。我们还构建了一个实验模型,并阐明了多模态参考解析任务的挑战。
- 图表
- 解决问题J-CRe3论文旨在解决现实世界中多模态参考解析的问题,即将用户交互中的语言信息与自我中心视图中观察到的视觉信息联系起来,以便机器人执行用户期望的操作。
- 关键思路论文提出了一个多模态参考解析任务,并构建了一个包含日语对话和自我中心视频的数据集,用于实现实际应用中的参考解析。该数据集还标注了跨模态标签,包括间接参考关系和直接参考关系。
- 其它亮点该论文的亮点包括构建了一个实际应用中的多模态参考解析数据集,提出了跨模态标签的概念,解决了间接参考关系和直接参考关系的问题,并构建了实验模型来验证该方法的有效性。该论文的数据集和实验模型可供其他研究者使用和参考。
- 在这个领域中,还有一些相关研究,例如“Multimodal Referring Expressions Resolution in Real-World Scenes”和“Multimodal Referring Expression Resolution in Augmented Reality”。
沙发等你来抢
去评论
评论
沙发等你来抢