ToxVidLLM: A Multimodal LLM-based Framework for Toxicity Detection in Code-Mixed Videos

2024年05月31日
  • 简介
    在快速发展的互联网技术时代,多模态内容(包括视频)的激增扩展了在线交流的视野。然而,在语种混合的低资源环境下检测有害内容仍然是一个重要的挑战。虽然大量研究已经解决了文本数据中的有害内容检测问题,但视频内容领域,特别是非英语语种,尚未得到充分探索。本文通过引入一个基准数据集,首次收集了931个视频,包含4021个混合印地语-英语话语,每个话语都经过了毒性、严重性和情感标签的精心注释,以解决这一研究空白。我们开发了一个先进的多模态多任务框架,利用大语言模型(LLM)构建了针对视频内容毒性检测的主要目标以及进行情感和严重性分析的附加任务。ToxVidLLM包括三个关键模块:编码器模块、跨模态同步模块和多任务模块,打造了一个通用的多模态LLM,定制了复杂的视频分类任务。我们的实验表明,将视频的多个模态结合起来,可以大大提高有害内容检测的性能,准确率和加权F1分数分别达到94.29%和94.35%。
  • 作者讲解
  • 图表
  • 解决问题
    本论文试图解决在多模态视频中检测有毒内容的问题,特别是在低资源代码混合语言中的检测问题。这是一个新问题。
  • 关键思路
    论文提出了一个基于大型语言模型的高级多模态多任务框架,ToxVidLLM,用于检测视频内容中的毒性,情感和严重性。该框架包括三个关键模块:编码器模块,跨模态同步模块和多任务模块,可用于定制复杂的视频分类任务。
  • 其它亮点
    论文介绍了一个新的基准数据集,包含931个视频和4021个代码混合的印地语-英语话语,每个话语都经过了毒性、严重性和情感标注。实验结果表明,多模态视频的多模态方法显著提高了毒性内容检测的性能,实现了94.29%的准确率和94.35%的加权F1分数。
  • 相关研究
    最近的相关研究包括:1)使用卷积神经网络(CNN)进行视频毒性分类的研究;2)使用循环神经网络(RNN)进行文本毒性分类的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问