- 简介我们提出了MaskLID,这是一种简单而有效的代码交替(CS)语言识别(LID)方法。MaskLID不需要任何训练,并且旨在补充当前高性能的句子级LID。句子级LID是在单语言文本上训练的分类器,用于提供单个标签,通常使用softmax层将分数转换为概率。然而,在句子由L1和L2两种语言组成的情况下,LID分类器通常只返回主导标签L1。为了解决这个限制,MaskLID采用一种策略来掩盖与L1相关的文本特征,允许LID在下一轮将文本分类为L2。这种方法使用LID本身来识别需要屏蔽的特征,不依赖于任何外部资源。在这项工作中,我们探讨了将MaskLID用于两个基于FastText架构的开源LID(GlotLID和OpenLID)的可能性。代码和演示可在https://github.com/cisnlp/MaskLID上获得。
-
- 图表
- 解决问题本文旨在解决代码交替语言识别中的问题,即当一句话同时包含多种语言时,传统的单标签分类器容易返回主导语言标签,而无法准确识别其他语言。
- 关键思路本文提出了一种名为MaskLID的简单且有效的代码交替语言识别方法,通过遮盖与主导语言相关的文本特征,让分类器能够在下一轮将该句话识别为其他语言。
- 其它亮点本文的方法不需要训练,可以与目前高性能的句子级别语言识别器相结合使用。实验使用了两个基于FastText架构的开源语言识别器(GlotLID和OpenLID),并提供了代码和演示。
- 近期的相关研究包括基于深度学习的语言识别方法、多语言语音识别和语言识别的跨语言迁移学习等。其中一些研究的论文标题包括:《Deep Learning for Language Identification: Improved Classification Using Convolutional Neural Networks》、《Multilingual Speech Recognition with a Single End-to-End Model》和《Cross-Lingual Transfer Learning for Low-Resource Speech Recognition》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流