- 简介多模态学习通常基于这样一个假设,即在训练和推理阶段所有的模态都是完全可用的。然而,在现实场景中,由于各种因素,始终获得完整的多模态数据是具有挑战性的。这经常导致缺失模态的问题,即某些模态的数据缺失,这不仅给多模态预训练模型的可用性带来了重大障碍,也给微调和保持下游任务鲁棒性带来了困难。为了解决这些挑战,我们提出了一种新的框架,将参数高效的单模态预训练模型的微调与自监督联合嵌入学习方法相结合。该框架使得模型能够在推理过程中在表征空间中预测缺失模态的嵌入。我们的方法通过提示调整,利用可用模态的信息有效地预测缺失的嵌入。我们在几个多模态基准数据集上评估了我们的方法,并展示了它在各种缺失模态的情况下的有效性和鲁棒性。
- 图表
- 解决问题解决缺失模态数据的问题,使得多模态预训练模型的微调和下游任务的鲁棒性得以保留。
- 关键思路该论文提出了一种新的框架,将参数高效的单模态预训练模型的微调与自监督联合嵌入学习方法相结合,使得模型可以在推理过程中预测缺失模态的嵌入。
- 其它亮点论文在多个多模态基准数据集上进行了评估,并展示了在不同缺失模态的情况下,该方法的有效性和鲁棒性。此外,论文还开源了实验代码。
- 最近的相关研究包括:'Learning with Missing Modalities via Cross-Modal Interaction Networks'、'Cross-Modal Pre-Training for Video Captioning'、'Multimodal Pretraining for Dense Video Captioning'等。
沙发等你来抢
去评论
评论
沙发等你来抢