Connecting NeRFs, Images, and Text

2024年04月11日
  • 简介
    神经辐射场(NeRFs)已成为表示3D场景和物体的标准框架,引入了一种新的数据类型用于信息交换和存储。与此同时,针对文本和图像数据的多模态表示学习取得了重大进展。本文探索了一个新的研究方向,旨在将NeRF模态与其他模态连接起来,类似于图像和文本的已建立的方法。为此,我们提出了一个简单的框架,利用预训练的NeRF表示模型以及用于文本和图像处理的多模态模型。我们的框架学习了NeRF嵌入和对应图像和文本获得的嵌入之间的双向映射。这种映射解锁了几个新的和有用的应用程序,包括NeRF零样本分类和从图像或文本中检索NeRF。
  • 图表
  • 解决问题
    论文旨在探索将NeRF模态与其他模态相连接的新方向,以解锁多种新的应用,如NeRF的零样本分类和从图像或文本中检索NeRF。
  • 关键思路
    该论文提出了一个简单的框架,利用预训练的NeRF表示模型和文本和图像处理的多模型,学习了NeRF嵌入和对应图像和文本之间的双向映射。
  • 其它亮点
    该论文的亮点包括提出了一个新的研究方向,探索了NeRF与其他模态的连接;提出了一个简单的框架,实现了NeRF的零样本分类和从图像或文本中检索NeRF;使用了多个数据集进行实验,并且开源了代码。
  • 相关研究
    近期的相关研究包括:《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》、《Learning to Generate 3D Shapes with Generative Adversarial Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论