- 简介多模态学习的研究通常在训练时将模态在统一的空间中对齐,而在推断时只选择一个模态。然而,对于真实的机器,例如机器人,传感器可以随时添加或删除。因此,使机器能够处理训练和推断之间的模态组合不匹配和不平衡问题至关重要。在本文中,我们从“模态帮助模态”的新视角来解决这些问题。我们提出了OmniBind,一种新颖的两阶段学习框架,可以实现任何模态组合和交互。它涉及将数据受限的学生模态与训练有素的数据丰富的教师模态对齐的方法。这样可以巧妙地实现任何模态的自适应融合,以建立任何组合的统一表示空间。具体而言,我们提出了跨模态对齐蒸馏(CAD)来解决学生和教师模态之间的不平衡问题,并在第一阶段有效地将学生模态对齐到教师模态的表示空间中。然后,我们提出了自适应融合(AF)模块,在第二阶段融合任何模态组合并学习统一的表示空间。为了解决不匹配问题,我们聚合现有数据集,并通过相同的语义将不同模态的样本组合在一起。这样,我们建立了第一个用于训练和评估的数据集,其中包括教师(图像、文本)和学生(触摸、热、事件、点云、音频)模态,并可以实现任何模态的omni-bind。在识别任务上的大量实验表明,在任意模态组合设置下,性能比现有方法平均提高了4.05%。它还实现了单一模态(例如触摸)的最先进性能,增益为4.34%。
-
- 图表
- 解决问题解决问题:论文试图解决多模态学习中训练和推理阶段模态不匹配的问题,提出了一种新的框架 OmniBind,旨在实现任意模态组合和交互的自适应融合。
- 关键思路关键思路:OmniBind 框架包含两个阶段的学习,第一阶段使用跨模态对齐蒸馏(CAD)解决学生模态和教师模态之间的不平衡问题,第二阶段使用自适应融合(AF)模块,将任意模态组合融合成一个统一的表示空间。
- 其它亮点其他亮点:论文提出的 OmniBind 框架在任意模态组合的情况下平均性能提高了 4.05%,在单模态情况下,如触摸模态,性能提高了 4.34%。论文使用了包含教师模态(图像、文本)和学生模态(触摸、热、事件、点云、音频)的数据集进行实验,并取得了最先进的性能。论文还提出了一种聚合现有数据集的方法来解决模态不匹配的问题。
- 相关研究:最近的相关研究包括多模态学习和跨模态对齐等方面,例如“Multi-Modal Learning with Correlated Side Information”和“Cross-Modal Deep Metric Learning with Multi-Task Regularization”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流