垂直领域业务出海,往往面临着新语种、低资源语言数据不足等多语言挑战,其中一条技术路线是通过机器翻译的方式将单语(大语种)方案迁移到多语言场景,但是这种做法效果往往很差,原因是小语种、口语化的文本翻译误差不断累积,导致最终模型训练和预测偏差较大。

我们选择的技术路线是通过预训练的方式来解决多语的问题,主要原因是:以往的研究表明预训练能使许多单语任务获得显著的性能提升;考虑到多语数据标注成本昂贵等因素,为每个语种开发维护一套方案成本太大,而预训练可以在不依赖标注的数据情况下来实现领域知识的迁移。

预训练技术路线同时也存在着挑战:基于开放域训练的开源预训练模型,是否适用于垂直领域?大规模多语数据需要大的模型,如何部署到线上进行推理?我们团队支撑了腾讯游戏出海业务,本文将介绍团队在游戏智能客服场景解决多语挑战的实践经验,给出上述问题的解决方案。

内容中包含的图片若涉及版权问题,请及时与我们联系删除