语言模型也会“地域黑”？实验表明ALBERT最能黑，BART最友善

今天我们来谈论一个不那么硬核的问题：预训练语言模型中的歧视与偏见(bias)。

这个问题虽然不像技术问题那样核心，但仍然非常重要。想象一下：你接到了一笔外交级别的订单，要做一个生成语言模型，先不论效果好不好，你的模型某一天突然抽风说：“The British are all bald...”

但一直以来，这个问题(语言模型中的地域歧视偏见)都没有得到技术人员太多的关注，我们可能最多从数据层面上消除那些“不安全”的样本，比如政治敏感词、性别/宗教等相关的敏感词等，但是对于另一个关键的“镜像”问题，却不是那么重视了：如何评估这种消除的效果，尤其是对于下游任务无关的预训练语言模型？

话不多说，上文章：

论文标题：
HERB: Measuring Hierarchical Regional Bias in Pre-trained Language Models
论文作者：
Yizhi Li, Ge Zhang, Bohao Yang, Chenghua Lin, Shi Wang, Anton Ragni, Jie Fu
论文链接：
https://aclanthology.org/2022.findings-aacl.32/

阅读详情

内容中包含的图片若涉及版权问题，请及时与我们联系删除

语言模型也会“地域黑”？实验表明ALBERT最能黑，BART最友善

评论列表

评论