MemeGuard: An LLM and VLM-based Framework for Advancing Content Moderation via Meme Intervention

2024年06月08日
  • 简介
    在数字世界中,由于表情包的潜在危害性,它们对内容管理提出了独特的挑战。尽管检测方法已经得到改进,但是针对表情包的干预等主动解决方案仍然有限,目前的研究主要集中在基于文本的内容上,忽视了表情包等多模态内容的广泛影响。为了弥补这一空白,我们提出了一个全面的框架——\textit{MemeGuard},它利用大型语言模型(LLMs)和视觉语言模型(VLMs)进行表情包干预。 \textit{MemeGuard}利用一个特别经过微调的VLM——\textit{VLMeme},用于表情包解释,以及一种多模态知识选择和排名机制(\textit{MKS}),用于提炼相关知识。然后,通用的LLM使用这些知识生成上下文适当的干预措施。这项工作的另一个关键贡献是介入多模态表情包中的网络欺凌(ICMM)数据集,这是一个高质量的、标记的数据集,包括有害的表情包及其相应的人工注释干预措施。我们利用ICMM测试了MemeGuard,证明了它在生成相关和有效的响应方面的熟练程度。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:本论文试图解决社交媒体中恶意模因的检测和干预问题。当前的研究主要关注文本内容,而忽视了多模态内容的影响,因此需要开发一个综合框架来处理这个问题。
  • 关键思路
    关键思路:本论文提出了一个名为MemeGuard的框架,利用大型语言模型和视觉语言模型进行模因干预。该框架使用特别微调的视觉语言模型VLMeme进行模因解释,并使用多模态知识选择和排序机制(MKS)来提取相关知识。然后,通用语言模型利用这些知识生成上下文适当的干预措施。
  • 其它亮点
    其他亮点:本论文提出了一个高质量的标注数据集ICMM,包括恶意模因和相应的人工干预措施。实验结果表明,MemeGuard能够生成相关且有效的响应,为社交媒体中的恶意模因检测和干预提供了一种新的解决方案。
  • 相关研究
    相关研究:最近的相关研究主要集中在文本内容的恶意检测和干预上,如使用BERT模型进行文本分类等。例如,论文标题包括《BERT for Detecting Malicious URLs》和《Detecting Hate Speech on Social Media Using Multimodal Deep Learning》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问