- 简介大型语言模型(LLMs)在许多不同的应用中表现出色,不仅限于语言生成,例如翻译、摘要和情感分析。其中一个有趣的应用是文本分类。在识别令人讨厌或有毒的言论方面,这变得相关且充满挑战和伦理困境。在我们的研究中,我们有两个目标:首先,提供围绕LLMs作为分类器的文献综述,强调它们在检测和分类令人讨厌或有毒内容方面的作用。随后,我们探索了几个LLMs在分类令人讨厌的言论方面的功效:识别哪些LLMs在此任务中表现出色以及它们的基本属性和训练。提供有关影响LLM在识别令人讨厌的内容方面的熟练程度(或缺乏)的因素的见解。通过将综合文献综述与实证分析相结合,我们的论文力图阐明LLMs在关键领域——仇恨言论检测中的能力和限制。
-
- 图表
- 解决问题本文探讨了大型语言模型在识别恶意言论方面的应用,旨在揭示LLM在恶意言论检测中的能力和局限性。
- 关键思路本文通过综合文献综述和实证分析,探讨了多种LLM在恶意言论分类中的效能以及其训练和属性等因素对LLM分类效能的影响。
- 其它亮点本文的亮点包括对LLM在恶意言论检测中的应用进行了全面的文献综述,以及对多种LLM在恶意言论分类中的实证分析。实验使用了多个数据集和模型,并提供了开源代码。值得深入研究的工作包括如何提高LLM在恶意言论分类中的效能。
- 最近的相关研究包括《BERT for Toxic Comment Classification》和《Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流