- 简介大型语言模型(LLMs)的迅速发展使得其自然语言处理能力接近于人类,并且LLMs在教育和医疗保健等各个社会领域得到了广泛应用。虽然这些模型的多功能性已经增强,但它们有可能生成主观和规范性语言,导致社会群体之间的歧视性待遇或结果,特别是由于在线攻击性语言。在本文中,我们将这种伤害定义为社会偏见,并评估了使用双向编码器表示来自转换器(KcBERT)和KOLD数据的基于模板的掩码语言建模(MLM)对韩语评论进行微调的模型中的种族、性别和种族偏见。为了定量评估偏见,我们采用了LPBS和CBS指标。与KcBERT相比,微调模型显示出减少种族偏见但在性别和种族偏见方面表现出显著变化。基于这些结果,我们提出了两种缓解社会偏见的方法。首先,在预训练阶段采用数据平衡方法通过调整特定单词的出现分布和将周围的有害单词转换为无害单词来调整数据的均匀性。其次,在训练阶段,我们应用去偏差正则化来调整辍学和正则化,确认训练损失的减少。我们的贡献在于证明由于语言特性,韩语语言模型存在社会偏见。
- 图表
- 解决问题这篇论文旨在解决大语言模型(LLMs)中存在的社会偏见问题,尤其是在涉及到在线攻击性语言时可能导致的种族、性别和种族歧视。作者使用KcBERT和KOLD数据通过基于模板的遮蔽语言建模(MLM)来评估这些偏见。
- 关键思路论文提出了两种方法来缓解社会偏见:数据平衡和去偏正则化。数据平衡方法可以通过调整数据中特定单词的出现分布以及将周围的有害单词转换为无害单词来调整数据的均匀性。去偏正则化方法可以通过调整丢失和正则化来减少训练损失。
- 其它亮点论文使用LPBS和CBS指标定量评估偏见,发现相比KcBERT,经过微调的模型减少了民族偏见,但在性别和种族偏见方面表现出显著变化。作者的贡献在于展示韩语语言模型存在社会偏见问题,提出了缓解这些偏见的方法。
- 最近的相关研究包括“Reducing Gender Bias in Abusive Language Detection”和“Mitigating Gender Bias in Natural Language Processing: Literature Review”。
沙发等你来抢
去评论
评论
沙发等你来抢