Think-Program-reCtify: 3D Situated Reasoning with Large Language Models

向作者提问

NEW

简介

本研究探讨了3D定位推理任务，旨在回答在3D环境中基于自我中心观察所提出的问题。该任务仍然具有挑战性，因为它需要全面的3D感知和复杂的推理技能。基于受到近期大型语言模型（LLMs）在视觉推理方面的成功启发，我们提出了LLM-TPC，这是一个新颖的框架，通过ThinkProgram-reCtify循环利用LLMs的规划、工具使用和反思能力。Think阶段首先将组合性问题分解成一系列步骤，然后程序阶段将每个步骤都与一段代码相关联，并调用经过精心设计的3D视觉感知模块。最后，如果程序无法执行，则Rectify阶段会调整计划和代码。在SQA3D基准测试上的实验和分析表明了我们方法的有效性、可解释性和鲁棒性。我们的代码公开可用于https://qingrongh.github.io/LLM-TPC/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决3D环境中的3D情境推理任务，该任务需要全面的3D感知和复杂的推理能力，但现有的端到端模型受到数据稀缺和泛化能力的限制。
关键思路

本文提出了LLM-TPC框架，通过Think-Program-Rectify循环，利用LLM的规划、工具使用和反思能力，将复杂的问题分解为一系列步骤，并将每个步骤映射到一段代码并调用3D视觉感知模块，最后通过Rectify阶段调整计划和代码。
其它亮点

本文的亮点包括：1. 提出了LLM-TPC框架，通过Think-Program-Rectify循环实现了3D情境推理任务。2. 实验结果表明，LLM-TPC具有良好的效果、可解释性和鲁棒性。3. 代码公开可用。4. 值得深入研究的工作包括如何进一步提高模型的性能和推理能力。
相关研究

在这个领域中，最近的相关研究包括：1.《EmbodiedQA: Bridging the Gap Between Image and Language Understanding》2.《Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration》3.《Learning to Learn How to Learn: Self-Adaptive Visual Navigation Using Meta-Learning》

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问