DM2RM: Dual-Mode Multimodal Ranking for Target Objects and Receptacles Based on Open-Vocabulary Instructions

Ryosuke Korekata ,
Kanta Kaneda ,
Shunya Nagashima ,
Yuto Imai ,
Komei Sugiura
2024年08月15日
  • 简介
    本研究旨在开发一款家庭服务机器人(DSR),该机器人可根据开放式词汇指令将日常物品搬到指定的家具上。目前很少有现有方法能够处理基于图像检索的移动操作任务和开放式词汇指令,并且大多数方法无法识别目标物品和容器。我们提出了双模式多模态排名模型(DM2RM),该模型基于多模态基础模型,能够使用单个模型检索目标物品和容器的图像。我们引入了一个切换机制,利用模式令牌和通过大型语言模型进行短语识别,以根据预测目标切换嵌入空间。为了评估DM2RM,我们构建了一个新的数据集,包括从数百个建筑规模的环境中收集的实际图像和通过众包收集的带有指称表达式的指令。评估结果表明,DM2RM在图像检索设置中的标准度量方面优于先前的方法。此外,我们展示了DM2RM在标准化的真实世界DSR平台上的应用,包括取物和搬运操作,尽管采用了零样本转移设置,但其任务成功率达到了82%。演示视频、代码和更多材料可在https://kkrr10.github.io/dm2rm/上获得。
  • 图表
  • 解决问题
    本文旨在开发一种家庭服务机器人(DSR),通过自然语言指令,能够将日常物品运送到指定的家具上。现有的方法很少能够在图像检索环境中处理具有开放词汇指令的移动操作任务,而且大多数方法不能同时识别目标物体和容器。
  • 关键思路
    本文提出了双模式多模态排序模型(DM2RM),它利用多模态基础模型,使目标物体和容器的图像可以使用单个模型进行检索。本文引入了一个切换机制,利用模式令牌和大型语言模型的短语识别来切换嵌入空间,以基于预测目标进行检索。DM2RM在标准图像检索指标方面优于先前的方法。
  • 其它亮点
    本文构建了一个新的数据集,包括从数百个建筑规模环境中收集的真实世界图像和众包指令。DM2RM在实验中表现出色,并在标准化的真实世界DSR平台上实现了82%的任务成功率。本文提供了演示视频、代码和更多材料。
  • 相关研究
    最近的相关研究包括使用机器学习方法进行自然语言理解和图像检索的研究,以及使用视觉语言嵌入模型进行多模态学习的研究。相关论文包括“Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments”和“Learning Multimodal Word Representations by Enforcing Latent Co-occurrence Modality Alignment”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论