Multi-modal Relation Distillation for Unified 3D Representation Learning

简介

最近，多模态预训练在3D点云方面的进展已经通过对齐3D形状及其对应的2D图像和语言描述中的异构特征，展现出了有希望的结果。然而，目前的直接解决方案常常忽略样本之间复杂的结构关系，可能限制了多模态学习的全部能力。为了解决这个问题，我们介绍了一种三模态预训练框架——多模态关系蒸馏（MRD），旨在将可信的大型视觉语言模型（VLM）有效地蒸馏到3D骨干中。MRD旨在捕捉每种模态内部的关系以及不同模态之间的交叉关系，并产生更具有区分性的3D形状表示。值得注意的是，MRD在下游零样本分类任务和跨模态检索任务中取得了显著的改进，提供了新的最先进性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决多模态学习中忽视样本内部和不同模态间关系的问题，以提高3D形状表示的区分度。
关键思路

本文提出了一种三模态预训练框架Multi-modal Relation Distillation (MRD)，旨在将大型视觉语言模型(VLM)有效地蒸馏到3D骨干中，以捕捉每种模态内部和不同模态间的关系。
其它亮点

本文在下游的零样本分类任务和跨模态检索任务中取得了显著的改进，达到了新的最先进水平。
相关研究

最近的相关研究包括：《3D前沿：从点云到深度学习》、《3D形状生成的对抗性自编码器》等。

Multi-modal Relation Distillation for Unified 3D Representation Learning

提问交流

提问交流