LLaNA: Large Language and NeRF Assistant

2024年06月17日
  • 简介
    多模态大语言模型(MLLMs)已经展示出对图像和三维数据的优秀理解能力。然而,这两种模态都存在在整体上捕捉物体外观和几何形状方面的缺陷。同时,神经辐射场(NeRFs)通过在简单的多层感知器(MLP)的权重中编码信息,已经成为一种越来越普遍的模态,可以同时编码物体的几何形状和照片般逼真的外观。本文研究了将NeRF引入MLLM的可行性和有效性。我们创建了LLaNA,第一个能够执行NeRF字幕和问答等新任务的通用NeRF语言助手。值得注意的是,我们的方法直接处理NeRF的MLP权重,提取所表示物体的信息,而无需渲染图像或实现3D数据结构。此外,我们构建了一个包含各种NeRF语言任务的文本注释的NeRF数据集,无需人工干预。基于这个数据集,我们开发了一个基准来评估我们的方法对NeRF理解能力的表现。结果表明,处理NeRF权重的表现优于从NeRF中提取2D或3D表示。
  • 图表
  • 解决问题
    本文旨在研究将NeRF模型与MLLM模型相结合,以便更好地理解和处理图像和3D数据,并提出了一种新的NeRF语言助手模型(LLaNA)。
  • 关键思路
    本文提出了一种新的方法,将NeRF模型的MLP权重直接输入到MLLM模型中,以提取有关所表示对象的信息,而无需渲染图像或实现3D数据结构。
  • 其它亮点
    该方法不需要人工干预即可构建包含文本注释的NeRF数据集,用于评估LLaNA模型的性能。实验结果表明,相对于从NeRF中提取2D或3D表示,处理NeRF权重的方法表现更好。
  • 相关研究
    最近的相关研究包括使用MLLM模型进行图像和3D数据处理的研究,以及使用NeRF模型进行3D渲染和场景重建的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论