今天我们来谈论一个不那么硬核的问题:预训练语言模型中的歧视与偏见(bias)。

这个问题虽然不像技术问题那样核心,但仍然非常重要。想象一下:你接到了一笔外交级别的订单,要做一个生成语言模型,先不论效果好不好,你的模型某一天突然抽风说:“The British are all bald...”

但一直以来,这个问题(语言模型中的地域歧视偏见)都没有得到技术人员太多的关注,我们可能最多从数据层面上消除那些“不安全”的样本,比如政治敏感词、性别/宗教等相关的敏感词等,但是对于另一个关键的“镜像”问题,却不是那么重视了:如何评估这种消除的效果,尤其是对于下游任务无关的预训练语言模型?

话不多说,上文章:

论文标题:
HERB: Measuring Hierarchical Regional Bias in Pre-trained Language Models
论文作者:
Yizhi Li, Ge Zhang, Bohao Yang, Chenghua Lin, Shi Wang, Anton Ragni, Jie Fu
论文链接:
https://aclanthology.org/2022.findings-aacl.32/

 

阅读详情

内容中包含的图片若涉及版权问题,请及时与我们联系删除