CCL 2021 | 多语言智能文本处理

面向国家重大需求，及“一带一路”文化交流与传播迫切需求，开展多语言智能文本处理关键技术研究，针对资源难获取、语种难识别、语言难处理、应用难开展的现状，提出和制定了资源稀缺语言标注标准和翻译知识自动获取方法，研究和揭示了黏着语复杂语言形态生成机理，攻克了复杂场景下多语言文本发现与机器翻译关键技术。面向日益增长的应用需求，开展多源、多语言、多格式的文本信息语种识别，文字、图片等多模态文档分析、多特征多要素的融合建模等研究，解决基于语义知识库的信息检索，交互式多语言翻译等文本内容理解与智能服务关键技术，成果与14家相关部门或企业合作转化，获2019年度新疆自治区科技进步一等奖。

多语言智能文本处理平台由一下三个模块组成文档翻译、文本翻译、 ocr识别。文档翻译模块是针对20多种常规格式文件进行文字识别再到翻译；文本翻译模块对200多种语言进行语种识别再到翻译；ocr识别模块是8种格式文件（pdf、jpg、png等）进行文字识别。平台可以对历史翻译内容进行关键词检索，命中率高。同时提供手机移动端的微信小程序。