- 简介在社交媒体上,用户经常表达个人情感,其中的一个子集可能表明潜在的自杀倾向。互联网语言中隐含和多样化的表达形式使得在社交媒体上准确快速地识别自杀意图变得复杂,从而为及时干预工作带来了挑战。开发深度学习模型用于自杀风险检测是一种有前途的解决方案,但是在中国语境下缺乏相关数据集。为了填补这一空白,本研究提供了一个针对细粒度自杀风险分类的中文社交媒体数据集,关注自杀意图表达、自杀方式和时间紧迫性等指标。在两个任务中评估了七个预训练模型:高和低自杀风险,以及从0到10级别的细粒度自杀风险分类。在我们的实验中,深度学习模型在区分高和低自杀风险方面表现良好,最佳模型的F1分数达到了88.39%。然而,细粒度自杀风险分类的结果仍然不尽如人意,加权F1分数为50.89%。为了解决数据不平衡和数据集大小有限的问题,我们研究了传统和基于大型语言模型的高级数据增强技术,证明数据增强可以将模型性能提高4.65%的F1分数。值得注意的是,基于心理领域数据预训练的中文MentalBERT模型在两个任务中表现出优异的性能。本研究为自动识别自杀者提供了有价值的见解,有助于在社交媒体平台上及时进行心理干预。源代码和数据已公开发布。
- 图表
- 解决问题本论文旨在解决社交媒体上自杀风险检测的问题,通过开发深度学习模型进行细粒度分类,但是缺乏相关的中文数据集。
- 关键思路论文提出了一种基于深度学习的自杀风险检测方法,并针对数据不平衡和数据集大小限制问题,提出了传统和先进的数据增强技术,以提高模型性能。
- 其它亮点论文开发了一个中文社交媒体数据集,用于自杀风险分类,包括自杀意图、自杀方式和时间紧迫性等指标。论文中使用了七个预训练模型,在高和低自杀风险以及0到10级的细粒度自杀风险分类任务中进行了评估。实验结果表明,深度学习模型在高低自杀风险分类中表现良好,最佳模型的F1得分为88.39%。但是,细粒度自杀风险分类的结果仍然不理想,加入数据增强技术后,模型的F1得分提高了4.65个百分点。值得注意的是,预训练于心理学领域数据的中文MentalBERT模型在两个任务中表现优异。
- 在这个领域中,近期还有一些相关的研究。例如:1)Zhang等人的《A Hybrid Deep Learning Approach for Suicide Ideation Detection on Social Media》;2)Li等人的《Detecting Chinese Suicide Ideation in Social Media Using Deep Learning》。
沙发等你来抢
去评论
评论
沙发等你来抢