3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset

2024年04月23日
  • 简介
    评估多模态大语言模型(MLLMs)的性能,将点云和语言结合起来,面临着重大挑战。缺乏全面的评估阻碍了确定这些模型是否真正代表了进步,从而阻碍了该领域的进一步发展。目前的评估严重依赖于分类和字幕任务,无法全面评估MLLMs。迫切需要一种更复杂的评估方法,能够彻底分析这些模型的空间理解和表达能力。为了解决这些问题,我们引入了一个可扩展的3D基准测试,伴随着一个大规模的指令调整数据集,称为3DBench,为MLLMs的全面评估提供了一个可扩展的平台。具体来说,我们建立了一个基准测试,涵盖了从对象级到场景级的广泛的空间和语义尺度,涉及感知和规划任务。此外,我们提出了一个严格的流程,用于自动构建可扩展的3D指令调整数据集,涵盖了10个不同的多模态任务,总共生成了超过23万个问答对。对流行的MLLMs进行彻底的实验评估、与现有数据集的比较以及培训方案的变化,证明了3DBench的优越性,提供了有价值的见解,指出了当前的限制和潜在的研究方向。
  • 图表
  • 解决问题
    本篇论文旨在解决多模态大型语言模型(MLLMs)的评估问题,提出了一个可扩展的3D基准测试和大规模指令调整数据集,以全面评估MLLMs的表现。
  • 关键思路
    论文提出了一个可扩展的3D基准测试和大规模指令调整数据集,涵盖了10个不同的多模态任务,从对象级到场景级,提供了全面评估MLLMs的平台。
  • 其它亮点
    论文设计了严格的实验流程,使用了3DBench数据集,展示了其在评估MLLMs方面的优越性。此外,该论文的方法还可以为未来的研究提供有价值的启示。
  • 相关研究
    在最近的研究中,还有一些相关的工作,如《Large-Scale Point Cloud Semantic Segmentation with Superpoint Graphs》和《3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论