VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification

2024年06月08日
  • 简介
    最近的条件式3D补全工作主要依赖于CLIP或BERT对文本信息进行编码,这不能支持复杂的指令。同时,大型语言模型(LLMs)在多模态理解和生成任务中展现出了巨大的潜力。受到LLM近期进展的启发,我们提出了Volume Patch LLM (VP-LLM),它利用LLMs在单次前向传递中执行条件式3D补全。为了将3D模型整合到LLM的标记配置中,不完整的3D对象首先被分成小块,可以独立编码。这些编码后的块与文本提示一起输入到LLM中,指示LLM捕捉这些块之间的关系,并将语义含义注入到3D对象中。我们的结果表明,LLMs具有解释复杂文本指令和理解3D对象的强大能力,超过了最先进的基于扩散的3D补全模型在生成质量上。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决条件3D完成中的复杂指令问题,并通过使用LLMs进行单向传递来提高生成质量。
  • 关键思路
    论文提出了一种名为VP-LLM的方法,将不完整的3D对象划分为小块,然后将这些编码块与文本提示一起馈入LLM中,以捕捉它们之间的关系并注入语义含义。
  • 其它亮点
    论文通过实验表明,VP-LLM方法具有强大的解释复杂文本指令和理解3D对象的能力,生成质量优于当前最先进的扩散式3D完成模型。
  • 相关研究
    最近的相关研究包括使用CLIP或BERT对文本信息进行编码的条件3D完成方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问