MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages

简介

文本解毒是一种文本风格转换（TST）任务，其中文本从有毒的表面形式（例如带有粗鲁词语）改写为中性风格。最近，文本解毒方法在各种任务中得到了应用，例如解毒大型语言模型（LLMs）（Leong等人，2023；He等人，2024；Tang等人，2023）和在社交网络中对抗有毒言论（Deng等人，2023；Mun等人，2023；Agarwal等人，2023）。所有这些应用都非常重要，以确保现代数字世界中的安全沟通。然而，以前用于平行文本解毒语料库收集的方法--ParaDetox（Logacheva等人，2022）和APPADIA（Atwell等人，2022）--仅在单语言设置中进行了探索。在这项工作中，我们旨在扩展ParaDetox管道到多种语言，提出MultiParaDetox以自动化潜在任何语言的平行解毒语料库收集。然后，我们尝试不同的文本解毒模型--从无监督基线到在呈现的平行语料库上微调的LLMs和模型--展示平行语料库存在的巨大好处，以获得任何语言的最先进的文本解毒模型。
图表
解决问题

本文旨在扩展ParaDetox流程到多种语言，提出MultiParaDetox，自动化收集潜在任何语言的平行去毒语料库。同时，实验不同的文本去毒模型，从无监督基线到LLMs和对呈现的平行语料库进行微调的模型，展示了平行语料库存在的巨大好处，可以为任何语言获得最先进的文本去毒模型。
关键思路

本文提出了MultiParaDetox方法，可以自动化收集潜在任何语言的平行去毒语料库，同时实验不同的文本去毒模型，展示了平行语料库存在的好处。
其它亮点

本文的亮点在于提出了MultiParaDetox方法，可以为任何语言获得最先进的文本去毒模型。实验设计合理，使用了多个数据集，并开源了代码。本文的工作值得进一步深入研究。
相关研究

最近在这个领域中，还有一些相关的研究，如ParaDetox和APPADIA。

MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages

评论