Bilingual Sexism Classification: Fine-Tuned XLM-RoBERTa and GPT-3.5 Few-Shot Learning

2024年06月11日
  • 简介
    在网络内容中存在性别歧视是一个普遍的问题,需要有效的分类技术来减轻其有害影响。在线平台经常出现性别歧视的评论和帖子,这会为女性和少数群体创造一个敌对的环境。这些内容不仅传播有害的刻板印象,还会造成情感伤害。可靠的方法对于发现和删除性别歧视内容至关重要,使在线空间更加安全和受欢迎。因此,在CLEF 2024上,sEXism Identification in Social neTworks(EXIST)挑战赛解决了这个问题。该研究旨在通过利用自然语言处理模型,改进双语环境(英语和西班牙语)中的性别歧视识别。任务是确定一个文本是否存在性别歧视,以及其背后的来源意图是什么。我们微调了XLM-RoBERTa模型,并单独使用GPT-3.5进行少量标注的学习提示,以分类性别歧视内容。XLM-RoBERTa模型在处理复杂语言结构方面表现出了强大的性能,而GPT-3.5的少量标注学习能力允许在最少的标注示例下快速适应新数据。我们采用XLM-RoBERTa的方法在任务1(性别歧视识别)的软软评估中取得了第4名的成绩。对于任务2(来源意图),我们在软软评估中取得了第2名的成绩。
  • 图表
  • 解决问题
    该论文旨在通过自然语言处理模型来改进双语环境下(英语和西班牙语)的性别歧视识别,以解决在线内容中性别歧视的问题。
  • 关键思路
    论文使用XLM-RoBERTa模型和GPT-3.5模型进行微调和few-shot学习,以对性别歧视内容进行分类和判断源意图。其中,XLM-RoBERTa模型表现出较强的处理复杂语言结构的能力,而GPT-3.5模型的few-shot学习能力则允许在最少的标记示例下快速适应新数据。
  • 其它亮点
    论文在CLEF 2024的EXIST挑战中取得了不俗的成绩,在Task1(性别歧视识别)中取得了第四名,在Task2(源意图)中取得了第二名。实验设计合理,使用了双语数据集,并开源了代码。
  • 相关研究
    最近的相关研究包括:1. "Gender Bias in Online Content Moderation: Evidence from Wikipedia",2. "A Survey on Detection Methods of Gender Bias in Text",3. "Mitigating Gender Bias in Natural Language Processing: Literature Review"等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论