- 简介文本解毒是一种文本风格转换(TST)任务,其中文本从有毒的表面形式(例如带有粗鲁词语)改写为中性风格。最近,文本解毒方法在各种任务中得到了应用,例如解毒大型语言模型(LLMs)(Leong等人,2023;He等人,2024;Tang等人,2023)和在社交网络中对抗有毒言论(Deng等人,2023;Mun等人,2023;Agarwal等人,2023)。所有这些应用都非常重要,以确保现代数字世界中的安全沟通。然而,以前用于平行文本解毒语料库收集的方法--ParaDetox(Logacheva等人,2022)和APPADIA(Atwell等人,2022)--仅在单语言设置中进行了探索。在这项工作中,我们旨在扩展ParaDetox管道到多种语言,提出MultiParaDetox以自动化潜在任何语言的平行解毒语料库收集。然后,我们尝试不同的文本解毒模型--从无监督基线到在呈现的平行语料库上微调的LLMs和模型--展示平行语料库存在的巨大好处,以获得任何语言的最先进的文本解毒模型。
- 图表
- 解决问题本文旨在扩展ParaDetox流程到多种语言,提出MultiParaDetox,自动化收集潜在任何语言的平行去毒语料库。同时,实验不同的文本去毒模型,从无监督基线到LLMs和对呈现的平行语料库进行微调的模型,展示了平行语料库存在的巨大好处,可以为任何语言获得最先进的文本去毒模型。
- 关键思路本文提出了MultiParaDetox方法,可以自动化收集潜在任何语言的平行去毒语料库,同时实验不同的文本去毒模型,展示了平行语料库存在的好处。
- 其它亮点本文的亮点在于提出了MultiParaDetox方法,可以为任何语言获得最先进的文本去毒模型。实验设计合理,使用了多个数据集,并开源了代码。本文的工作值得进一步深入研究。
- 最近在这个领域中,还有一些相关的研究,如ParaDetox和APPADIA。
沙发等你来抢
去评论
评论
沙发等你来抢