VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification

简介

最近的条件式3D补全工作主要依赖于CLIP或BERT对文本信息进行编码，这不能支持复杂的指令。同时，大型语言模型(LLMs)在多模态理解和生成任务中展现出了巨大的潜力。受到LLM近期进展的启发，我们提出了Volume Patch LLM (VP-LLM)，它利用LLMs在单次前向传递中执行条件式3D补全。为了将3D模型整合到LLM的标记配置中，不完整的3D对象首先被分成小块，可以独立编码。这些编码后的块与文本提示一起输入到LLM中，指示LLM捕捉这些块之间的关系，并将语义含义注入到3D对象中。我们的结果表明，LLMs具有解释复杂文本指令和理解3D对象的强大能力，超过了最先进的基于扩散的3D补全模型在生成质量上。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决条件3D完成中的复杂指令问题，并通过使用LLMs进行单向传递来提高生成质量。
关键思路

论文提出了一种名为VP-LLM的方法，将不完整的3D对象划分为小块，然后将这些编码块与文本提示一起馈入LLM中，以捕捉它们之间的关系并注入语义含义。
其它亮点

论文通过实验表明，VP-LLM方法具有强大的解释复杂文本指令和理解3D对象的能力，生成质量优于当前最先进的扩散式3D完成模型。
相关研究

最近的相关研究包括使用CLIP或BERT对文本信息进行编码的条件3D完成方法。

VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification

提问交流

提问交流