- 简介实现性别平等是实现联合国可持续发展全球目标的关键因素。性别偏见研究致力于此,并依靠基于姓名的性别推断工具,在性别信息不可用时为个体分配性别标签。然而,这些工具经常会对中国拼音姓名进行错误的性别预测,导致此类研究中存在潜在的偏见。随着中国人在国际活动中的参与越来越多,这种情况变得更加严重。具体而言,目前的工具侧重于发音(拼音)信息,忽略了拼音和汉字之间的潜在联系所传达的关键信息。作为首次尝试,我们制定了拼音姓名性别猜测问题,并设计了一种多任务学习网络辅助知识蒸馏,使模型中的拼音嵌入具有汉字的语义特征,并从汉字姓名中学习性别信息。我们开源的方法相对于商业姓名性别猜测工具提高了9.70%至20.08%,并且超越了最先进的算法。
-
- 图表
- 解决问题本论文试图解决中文拼音姓名的性别推断问题,当前的工具在这方面存在不准确的情况,可能导致性别偏见。这是否是一个新问题?
- 关键思路本论文提出了一个多任务学习网络,利用知识蒸馏技术,使得模型中的拼音嵌入具有汉字的语义特征,并从中文姓名中学习性别信息。相比当前领域的研究,本论文的思路是将拼音和汉字之间的潜在联系结合起来,提高了性别推断的准确性。
- 其它亮点本论文的方法在公开数据集上表现优于商业性别推断工具和当前最先进的算法,相对提升了9.70%到20.08%。论文还开源了代码,使用了多个数据集进行实验,并进行了详细的实验分析。这个问题的解决对于实现联合国可持续发展目标中的性别平等至关重要。
- 在这个领域中,最近的相关研究包括《Name-Based Gender Inference in Chinese Language Social Media》、《Chinese Name Gender Classification with Deep Learning》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流