COM3D: Leveraging Cross-View Correspondence and Cross-Modal Mining for 3D Retrieval

2024年05月07日
  • 简介
    本文研究了在3D形状和文本描述之间进行跨模态检索的开放式研究任务。以往的方法主要依赖于点云编码器进行特征提取,可能忽略了3D形状的关键内在特征,包括深度、空间层次结构、几何连续性等。为解决这个问题,我们提出了COM3D,首次尝试利用跨视图对应和跨模态挖掘来增强检索性能。值得注意的是,我们通过场景表示转换器增强了3D特征,生成了3D形状的跨视图对应特征,丰富了内在特征并增强了与文本匹配的兼容性。此外,我们提出了基于半困难负例挖掘方法的跨模态匹配过程的优化,试图提高学习效率。大量定量和定性实验证明了我们提出的COM3D的优越性,在Text2Shape数据集上取得了最先进的结果。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决跨模态检索中点云编码器无法充分提取3D形状固有特征的问题,提出了一种基于跨视图对应和跨模态挖掘的方法COM3D。
  • 关键思路
    COM3D利用场景表示变换器增强3D形状的固有特征,并生成跨视图对应特征,提高了与文本匹配的兼容性。同时,采用半硬负例挖掘方法优化跨模态匹配过程,提高了学习效率。
  • 其它亮点
    论文在Text2Shape数据集上进行了广泛的定量和定性实验,证明了COM3D的优越性能。COM3D的代码已经开源,值得进一步研究。
  • 相关研究
    与该论文相关的研究包括:1. Point2Sequence: Learning the Shape Representation of 3D Point Clouds with an Attention-Based Sequence to Sequence Network;2. Learning Representations and Generative Models for 3D Point Clouds;3. 3D Shape Retrieval with Adversarial Autoencoder Network.
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问