- 简介如果机器人要与人类有效地共同工作,它们必须能够解释自然语言中对其3D环境中物体的引用。理解3D引用表达式很具有挑战性——它需要能够同时解析场景的3D结构并在存在干扰和杂乱的情况下正确地确定自由形式的语言。我们介绍了Transcrib3D,这是一种将3D检测方法与大型语言模型(LLM)的新兴推理能力结合起来的方法。Transcrib3D使用文本作为统一的媒介,这使我们能够避开学习连接多模式输入的共享表示所需的大量注释3D数据的需要。作为其有效性的演示,Transcrib3D在3D参考解决基准测试中取得了最先进的结果,与以前的多模式基准线相比,性能有了很大的飞跃。为了提高零-shot性能并促进在边缘计算机和机器人上进行本地部署,我们提出了自我校正的微调方法,训练较小的模型,从而实现了接近大型模型的性能。我们展示了我们的方法使得真实机器人能够执行拾取和放置任务,并能够处理具有挑战性的引用表达式的查询。项目网站位于https://ripl.github.io/Transcrib3D。
- 图表
- 解决问题Transcrib3D试图解决如何让机器人能够理解自然语言描述三维环境中的物体的问题。
- 关键思路Transcrib3D使用大型语言模型和3D检测方法相结合的方法,通过文本作为统一的媒介来解决3D引用表达的问题,从而避免了需要学习连接多模态输入的共享表示的需求。
- 其它亮点Transcrib3D在3D引用分辨率基准测试中取得了最新的最优结果,从之前的多模态基线中大幅提高了性能。为了改进零-shot性能并促进在边缘计算机和机器人上的本地部署,论文提出了自校正微调的方法,该方法训练更小的模型,性能接近大型模型。作者还展示了他们的方法可以让真实的机器人在给定具有挑战性的引用表达式的查询时执行拾取和放置任务。
- 最近在这个领域中,还有一些相关的研究,如《3D Referring Expression Understanding via Language-Guided Graph Attention Networks》和《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》。
沙发等你来抢
去评论
评论
沙发等你来抢