Token-Level Contrastive Learning with Modality-Aware Prompting for Multimodal Intent Recognition

简介

多模态意图识别旨在利用不同的模态，如表情、身体动作和语调，以理解用户的意图，在真实世界的多模态场景中构成了理解人类语言和行为的关键任务。然而，大多数现有方法忽略了不同模态之间的潜在相关性，并在有效学习非语言模态的语义特征方面存在局限性。本文介绍了一种具有模态感知提示的标记级对比学习方法（TCL-MAP）来解决上述挑战。为了为文本模态建立最佳的多模态语义环境，我们开发了一个模态感知提示模块（MAP），该模块通过基于相似度的模态对齐和跨模态注意机制有效地对文本、视频和音频模态的特征进行对齐和融合。基于模态感知提示和基准标签，所提出的标记级对比学习框架（TCL）构建增强样本，并在标签标记上使用NT-Xent损失。具体而言，TCL利用从意图标签中得出的最佳文本语义洞察来引导其他模态的学习过程。广泛的实验表明，与现有最先进的方法相比，我们的方法取得了显着的改进。此外，消融分析证明了模态感知提示优于手工提示的优越性，这对于多模态提示学习具有重要意义。代码已在https://github.com/thuiar/TCL-MAP上发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决多模态意图识别中存在的挑战，包括不同模态之间的相关性和从非语言模态中有效学习语义特征的限制。
关键思路

论文提出了一种基于令牌级对比学习的多模态意图识别方法，其中包括模态感知提示模块（MAP）和标记令牌的NT-Xent损失。
其它亮点

通过在多模态环境下使用MAP模块对文本、视频和音频模态的特征进行相似度对齐和跨模态注意力机制的融合，该方法在多模态意图识别任务中取得了显著的改进。此外，论文还提供了开源代码和数据集，并进行了详细的实验分析。
相关研究

最近的相关研究包括《Multimodal Intent Recognition with Hierarchical Fusion》和《Multimodal Intent Recognition via Gradient Boosted Trees》等。

Token-Level Contrastive Learning with Modality-Aware Prompting for Multimodal Intent Recognition

提问交流

提问交流