- 简介在大型多模型(LMMs)的兴起和它们在生成和解释复杂内容中的广泛应用中,传播有偏见和有害模因的风险仍然很大。目前的安全措施通常无法检测到“混淆模因”中微妙地融入的仇恨内容。为了解决这个问题,我们介绍了一个新的框架——\textsc{HateSieve},旨在增强对恶意模因中仇恨元素的检测和分割。\textsc{HateSieve}具有一种新颖的对比模因生成器,可以创建语义配对的模因,一个用于对比学习的定制三元组数据集,以及一个图像-文本对齐模块,可以产生上下文感知的嵌入,用于准确的模因分割。在仇恨模因数据集上的实证实验表明,\textsc{HateSieve}不仅在性能上超过了现有的LMMs,而且具有更少的可训练参数,还提供了一种精确识别和隔离恶意内容的强大机制。注意:本文包含有关仇恨言论的学术讨论,观众谨慎。
- 图表
- 解决问题如何增强对恶意模因中令人讨厌的元素的检测和分割能力?
- 关键思路提出了一个名为HateSieve的新框架,其中包括对比式模因生成器、用于对比学习的三元组数据集和用于准确模因分割的图像-文本对齐模块。
- 其它亮点HateSieve不仅在性能上优于现有的大型多模态模型,而且具有更少的可训练参数,还提供了一种精确识别和隔离恶意内容的强大机制。实验使用了Hateful Meme数据集,并取得了成功的结果。
- 最近的相关研究包括:'The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes'、'A Benchmark Dataset and Evaluation for Visual and Textual Explanations for Grounded Question Answering'等。
沙发等你来抢
去评论
评论
沙发等你来抢