- 简介语言和三维感知的整合对于开发理解和与物理世界交互的具身化智能体和机器人至关重要。虽然大型语言模型(LLMs)已经展示了令人印象深刻的语言理解和生成能力,但它们适应三维环境(3D-LLMs)仍处于早期阶段。主要挑战之一是缺乏提供语言和三维场景之间密集基础的大规模数据集。在本文中,我们介绍了3D-GRAND,这是一个开创性的大规模数据集,包括40,087个家庭场景,配对了6.2百万个密集基础的场景语言指令。我们的结果表明,使用3D-GRAND进行指令调整可以显著增强基础能力并减少3D-LLMs中的幻觉。作为我们的贡献的一部分,我们提出了一个全面的基准3D-POPE,以系统地评估3D-LLMs中的幻觉,从而使未来模型之间进行公正比较。我们的实验突出了数据集大小与3D-LLM性能之间的扩展效应,强调了大规模3D文本数据集在推进具身化AI研究中的关键作用。值得注意的是,我们的结果展示了有效的模拟到实际转移的早期信号,表明在大规模合成数据上训练的模型可以在真实的三维扫描中表现良好。通过3D-GRAND和3D-POPE,我们旨在为具身化AI社区提供必要的资源和见解,为更可靠和更好基础的3D-LLMs打下基础。项目网站:https://3d-grand.github.io
- 图表
- 解决问题论文旨在解决语言和3D感知的融合问题,即如何让机器人和智能体在物理世界中理解和交互。目前大规模语言模型(LLMs)已经取得了令人瞩目的语言理解和生成能力,但将其应用到3D环境(3D-LLMs)仍处于早期阶段,其中一个主要挑战是缺乏提供语言和3D场景之间密集接地的大规模数据集。
- 关键思路本文提出了一个创新的大规模数据集3D-GRAND,包括40,087个家庭场景和6.2百万个密集接地的场景语言指令,证明了使用3D-GRAND进行指令调整可以显著提高接地能力,减少3D-LLMs的幻觉。同时,本文提出了一个全面的基准测试3D-POPE,以系统评估3D-LLMs中的幻觉,为未来模型的公平比较提供可能。实验结果显示,数据集大小与3D-LLM性能之间存在一个规模效应,强调了大规模3D-文本数据集在推进具体化AI研究中的关键作用。
- 其它亮点本文的亮点包括提出了一个大规模的3D-GRAND数据集和一个全面的基准测试3D-POPE,证明了指令调整可以提高接地能力,减少幻觉。实验结果还表明,使用大规模合成数据训练的模型可以在真实的3D扫描中表现良好,为有效的模拟到真实世界的转移打下了基础。此外,本文还提供了开源代码和实验细节,为相关研究提供了参考。
- 在这个领域的相关研究包括:《EmbodiedQA: Bridging the Gap Between Image and Language Understanding》、《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》、《Embodied Language Grounding with 3D Visual Feature Representations》等。
沙发等你来抢
去评论
评论
沙发等你来抢