- 简介检测仇恨言论和冒犯性语言对于维护安全和尊重的数字环境至关重要。本研究探讨了现有最先进的大型语言模型(LLM)在识别系统性扰动数据中的冒犯内容方面的局限性,重点关注汉语,这是一种特别容易受到此类扰动影响的语言。我们介绍了\textsf{ToxiCloakCN},这是一个增强的数据集,源自ToxiCN,通过同音替换和表情符号转换进行了扩充,以测试LLM对这些伪装扰动的鲁棒性。我们的研究发现,现有模型在应用这些扰动时在检测冒犯内容方面表现明显下降。我们对不同类型的冒犯内容受这些扰动的影响进行了深入分析,并探讨了人类和模型对冒犯性的解释之间的一致性。我们的研究突出了更先进的冒犯性语言检测技术的迫切需求,以应对逃避检测机制的不断进化的策略。
- 图表
- 解决问题本论文旨在研究大型语言模型在识别中文恶意内容时的局限性,并探讨如何应对这些局限性。
- 关键思路论文提出了ToxiCloakCN数据集,通过同音替换和表情符号转换等手段对ToxiCN数据集进行增强,以测试大型语言模型对这些干扰的鲁棒性。实验结果表明,现有的模型在应对这些干扰时表现不佳,需要更先进的技术来检测恶意语言。
- 其它亮点论文对不同类型的恶意内容在受到干扰后的影响进行了深入分析,并探讨了人类和模型对恶意程度的解释之间的一致性。此外,论文提出的ToxiCloakCN数据集和实验设计有望为相关研究提供参考。
- 最近的相关研究包括《BERT对中文情感分析的影响研究》、《基于卷积神经网络的中文恶意评论检测》等。
沙发等你来抢
去评论
评论
沙发等你来抢