COM3D: Leveraging Cross-View Correspondence and Cross-Modal Mining for 3D Retrieval

简介

本文研究了在3D形状和文本描述之间进行跨模态检索的开放式研究任务。以往的方法主要依赖于点云编码器进行特征提取，可能忽略了3D形状的关键内在特征，包括深度、空间层次结构、几何连续性等。为解决这个问题，我们提出了COM3D，首次尝试利用跨视图对应和跨模态挖掘来增强检索性能。值得注意的是，我们通过场景表示转换器增强了3D特征，生成了3D形状的跨视图对应特征，丰富了内在特征并增强了与文本匹配的兼容性。此外，我们提出了基于半困难负例挖掘方法的跨模态匹配过程的优化，试图提高学习效率。大量定量和定性实验证明了我们提出的COM3D的优越性，在Text2Shape数据集上取得了最先进的结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决跨模态检索中点云编码器无法充分提取3D形状固有特征的问题，提出了一种基于跨视图对应和跨模态挖掘的方法COM3D。
关键思路

COM3D利用场景表示变换器增强3D形状的固有特征，并生成跨视图对应特征，提高了与文本匹配的兼容性。同时，采用半硬负例挖掘方法优化跨模态匹配过程，提高了学习效率。
其它亮点

论文在Text2Shape数据集上进行了广泛的定量和定性实验，证明了COM3D的优越性能。COM3D的代码已经开源，值得进一步研究。
相关研究

与该论文相关的研究包括：1. Point2Sequence: Learning the Shape Representation of 3D Point Clouds with an Attention-Based Sequence to Sequence Network；2. Learning Representations and Generative Models for 3D Point Clouds；3. 3D Shape Retrieval with Adversarial Autoencoder Network.

COM3D: Leveraging Cross-View Correspondence and Cross-Modal Mining for 3D Retrieval

提问交流

提问交流