- 简介本研究探讨了3D定位推理任务,旨在回答在3D环境中基于自我中心观察所提出的问题。该任务仍然具有挑战性,因为它需要全面的3D感知和复杂的推理技能。基于受到近期大型语言模型(LLMs)在视觉推理方面的成功启发,我们提出了LLM-TPC,这是一个新颖的框架,通过ThinkProgram-reCtify循环利用LLMs的规划、工具使用和反思能力。Think阶段首先将组合性问题分解成一系列步骤,然后程序阶段将每个步骤都与一段代码相关联,并调用经过精心设计的3D视觉感知模块。最后,如果程序无法执行,则Rectify阶段会调整计划和代码。在SQA3D基准测试上的实验和分析表明了我们方法的有效性、可解释性和鲁棒性。我们的代码公开可用于https://qingrongh.github.io/LLM-TPC/。
-
- 图表
- 解决问题本文旨在解决3D环境中的3D情境推理任务,该任务需要全面的3D感知和复杂的推理能力,但现有的端到端模型受到数据稀缺和泛化能力的限制。
- 关键思路本文提出了LLM-TPC框架,通过Think-Program-Rectify循环,利用LLM的规划、工具使用和反思能力,将复杂的问题分解为一系列步骤,并将每个步骤映射到一段代码并调用3D视觉感知模块,最后通过Rectify阶段调整计划和代码。
- 其它亮点本文的亮点包括:1. 提出了LLM-TPC框架,通过Think-Program-Rectify循环实现了3D情境推理任务。2. 实验结果表明,LLM-TPC具有良好的效果、可解释性和鲁棒性。3. 代码公开可用。4. 值得深入研究的工作包括如何进一步提高模型的性能和推理能力。
- 在这个领域中,最近的相关研究包括:1.《EmbodiedQA: Bridging the Gap Between Image and Language Understanding》2.《Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration》3.《Learning to Learn How to Learn: Self-Adaptive Visual Navigation Using Meta-Learning》
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流