N-Modal Contrastive Losses with Applications to Social Media Data in Trimodal Space

简介

社交媒体上的冲突动态已经越来越多元化。最近，像CLIP这样的模型架构的进步使得研究人员能够开始研究文本和图像在共享潜在空间中的相互作用。然而，CLIP模型无法处理社交媒体上的情况，当帖子中的模式扩展到两个以上时。社交媒体动态通常需要理解不仅文本和图像之间的相互作用，还需要理解视频。在本文中，我们探讨了对比损失函数的扩展，以允许任意数量的模态，并展示了它在社交媒体上的三模态空间中的有用性。通过将CLIP扩展到三个维度，我们可以进一步帮助理解社交媒体景观，其中存在所有三种模态（这是越来越常见的情况）。我们使用一个新收集的包含所有三种模态的Telegram帖子的公共数据集进行训练，然后展示了三模态模型在两个OSINT场景中的有用性：将社交媒体人工制品帖子分类为亲俄罗斯或亲乌克兰，并确定给定人工制品的原始帐户。虽然三模态CLIP模型以前已经被探索过（尽管不是在社交媒体数据上），但我们还展示了一种新颖的四模态CLIP模型。这个模型可以学习文本、图像、视频和音频之间的相互作用。我们展示了四模态模型在检索方面的新的最先进的基线结果。
图表
解决问题

本论文旨在解决社交媒体上多模态数据分析的问题，尤其是在处理文本、图像和视频等三种模态数据时，现有模型的应用受限。作者通过拓展对比损失函数来实现三种及以上模态数据的处理。
关键思路

本论文的关键思路是通过对比损失函数的拓展，将CLIP模型拓展到三维空间，以处理社交媒体上的文本、图像和视频等三种模态数据。此外，论文还展示了四维空间的模型，可以学习文本、图像、视频和音频之间的相互作用。
其它亮点

论文使用新收集的Telegram数据集进行训练，并在两个OSINT场景下展示了三模态CLIP模型的有效性，即将社交媒体文物帖子分类为亲俄或亲乌克兰，以及识别给定文物来源的帐户。此外，论文还展示了四模态CLIP模型的最新基准结果。
相关研究

近年来，研究人员已经拓展了CLIP模型来处理三种模态数据，但这些研究并未涉及社交媒体数据。与此同时，还有一些相关的研究，如《CLIP: Connecting Text and Images》和《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》。

N-Modal Contrastive Losses with Applications to Social Media Data in Trimodal Space

评论