- 简介本文介绍了SmurfCat团队在PAN-2024比赛中多语言文本去毒化任务的解决方案。通过机器翻译和特殊过滤程序的数据增强,我们收集了一个额外的多语言平行数据集用于文本去毒化。利用所获得的数据,我们在文本去毒化任务上对多语言序列到序列模型(如mT0和Aya)进行了微调。我们在最终模型中应用了ORPO对齐技术。我们的最终模型仅有37亿个参数,在乌克兰语方面取得了最先进的结果,在其他语言方面则接近最先进的结果。在比赛中,我们的团队在自动评估中以0.52的分数获得第一名,在最终人工评估中以0.74的分数获得第二名。
-
- 图表
- 解决问题本文解决了PAN-2024竞赛中的多语言文本去毒化任务,并提出了一种数据增强和特殊过滤的方法,以获得更多的多语言并行数据集。
- 关键思路本文使用了多语言序列到序列模型,如mT0和Aya,并应用了ORPO对齐技术,最终获得了仅有37亿参数的模型,取得了乌克兰语的最佳结果和其他语言的近乎最佳结果。
- 其它亮点本文在实验中使用了开源数据集,并提供了开源代码。此外,作者使用了数据增强和特殊过滤的方法来获得更多的多语言并行数据集,这可能是未来更多研究的方向。
- 最近在这个领域中,还有一些相关的研究,如《Multilingual Text Classification with Cross-lingual Pretraining》和《Zero-shot Cross-lingual Transfer with Meta Learning》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流