MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages

2024年04月02日
  • 简介
    文本解毒是一种文本风格转换(TST)任务,其中文本从有毒的表面形式(例如带有粗鲁词语)改写为中性风格。最近,文本解毒方法在各种任务中得到了应用,例如解毒大型语言模型(LLMs)(Leong等人,2023;He等人,2024;Tang等人,2023)和在社交网络中对抗有毒言论(Deng等人,2023;Mun等人,2023;Agarwal等人,2023)。所有这些应用都非常重要,以确保现代数字世界中的安全沟通。然而,以前用于平行文本解毒语料库收集的方法--ParaDetox(Logacheva等人,2022)和APPADIA(Atwell等人,2022)--仅在单语言设置中进行了探索。在这项工作中,我们旨在扩展ParaDetox管道到多种语言,提出MultiParaDetox以自动化潜在任何语言的平行解毒语料库收集。然后,我们尝试不同的文本解毒模型--从无监督基线到在呈现的平行语料库上微调的LLMs和模型--展示平行语料库存在的巨大好处,以获得任何语言的最先进的文本解毒模型。
  • 图表
  • 解决问题
    本文旨在扩展ParaDetox流程到多种语言,提出MultiParaDetox,自动化收集潜在任何语言的平行去毒语料库。同时,实验不同的文本去毒模型,从无监督基线到LLMs和对呈现的平行语料库进行微调的模型,展示了平行语料库存在的巨大好处,可以为任何语言获得最先进的文本去毒模型。
  • 关键思路
    本文提出了MultiParaDetox方法,可以自动化收集潜在任何语言的平行去毒语料库,同时实验不同的文本去毒模型,展示了平行语料库存在的好处。
  • 其它亮点
    本文的亮点在于提出了MultiParaDetox方法,可以为任何语言获得最先进的文本去毒模型。实验设计合理,使用了多个数据集,并开源了代码。本文的工作值得进一步深入研究。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如ParaDetox和APPADIA。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论