- 简介随着大型语言模型(LLMs)的发展,它们与三维空间数据(3D-LLMs)的整合取得了快速进展,为理解和与物理空间交互提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法学。我们强调了LLMs的独特优势,如上下文学习、逐步推理、开放词汇能力和广泛的世界知识,强调它们在推进具有体验感的人工智能(AI)系统中的空间理解和交互方面的潜力。我们的研究涵盖了各种3D数据表示,从点云到神经辐射场(NeRFs)。它研究了它们与LLMs的集成,用于3D场景理解、字幕、问答和对话等任务,以及基于LLM的代理程序进行空间推理、规划和导航。本文还简要回顾了其他整合3D和语言的方法。本文呈现的元分析显示了显著的进展,但也强调了利用3D-LLMs的全部潜力需要新的方法。因此,通过本文,我们旨在为未来的研究规划道路,探索和扩展3D-LLMs在理解和与复杂的3D世界交互方面的能力。为了支持这项调查,我们建立了一个项目页面,其中列出了与我们主题相关的论文:https://github.com/ActiveVisionLab/Awesome-LLM-3D。
- 图表
- 解决问题论文探讨了如何将大型语言模型(LLMs)与三维空间数据(3D)相结合,以实现更好的空间理解和交互。论文试图解决如何利用LLMs处理、理解和生成3D数据的问题。
- 关键思路论文的关键思路是将LLMs与各种3D数据表示形式相结合,从点云到神经辐射场(NeRF),并将其用于3D场景理解、字幕、问答和对话等任务,以及基于LLMs的代理人用于空间推理、规划和导航。
- 其它亮点论文强调了LLMs在上下文学习、逐步推理、开放词汇能力和广泛的世界知识方面的独特优势,以及它们在提高空间理解和交互方面的潜力。论文还提供了与主题相关的论文列表和开源代码。
- 最近的相关研究包括:《3D语义分割:一个联合深度学习框架》、《3D物体检测:从点云到网格》、《基于强化学习的3D导航:从视觉输入到行为输出》等。
沙发等你来抢
去评论
评论
沙发等你来抢