Harnessing Artificial Intelligence to Combat Online Hate: Exploring the Challenges and Opportunities of Large Language Models in Hate Speech Detection

简介

大型语言模型（LLMs）在许多不同的应用中表现出色，不仅限于语言生成，例如翻译、摘要和情感分析。其中一个有趣的应用是文本分类。在识别令人讨厌或有毒的言论方面，这变得相关且充满挑战和伦理困境。在我们的研究中，我们有两个目标：首先，提供围绕LLMs作为分类器的文献综述，强调它们在检测和分类令人讨厌或有毒内容方面的作用。随后，我们探索了几个LLMs在分类令人讨厌的言论方面的功效：识别哪些LLMs在此任务中表现出色以及它们的基本属性和训练。提供有关影响LLM在识别令人讨厌的内容方面的熟练程度（或缺乏）的因素的见解。通过将综合文献综述与实证分析相结合，我们的论文力图阐明LLMs在关键领域——仇恨言论检测中的能力和限制。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文探讨了大型语言模型在识别恶意言论方面的应用，旨在揭示LLM在恶意言论检测中的能力和局限性。
关键思路

本文通过综合文献综述和实证分析，探讨了多种LLM在恶意言论分类中的效能以及其训练和属性等因素对LLM分类效能的影响。
其它亮点

本文的亮点包括对LLM在恶意言论检测中的应用进行了全面的文献综述，以及对多种LLM在恶意言论分类中的实证分析。实验使用了多个数据集和模型，并提供了开源代码。值得深入研究的工作包括如何提高LLM在恶意言论分类中的效能。
相关研究

最近的相关研究包括《BERT for Toxic Comment Classification》和《Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes》等。

Harnessing Artificial Intelligence to Combat Online Hate: Exploring the Challenges and Opportunities of Large Language Models in Hate Speech Detection

提问交流

提问交流