面向国家重大需求,及“一带一路”文化交流与传播迫切需求,开展多语言智能文本处理关键技术研究,针对资源难获取、语种难识别、语言难处理、应用难开展的现状,提出和制定了资源稀缺语言标注标准和翻译知识自动获取方法,研究和揭示了黏着语复杂语言形态生成机理,攻克了复杂场景下多语言文本发现与机器翻译关键技术。面向日益增长的应用需求,开展多源、多语言、多格式的文本信息语种识别,文字、图片等多模态文档分析、多特征多要素的融合建模等研究,解决基于语义知识库的信息检索,交互式多语言翻译等文本内容理解与智能服务关键技术,成果与14家相关部门或企业合作转化,获2019年度新疆自治区科技进步一等奖。

多语言智能文本处理平台由一下三个模块组成文档翻译 、文本翻译、 ocr识别。文档翻译模块是针对20多种常规格式文件进行文字识别再到翻译;文本翻译模块对200多种语言进行语种识别再到翻译;ocr识别模块是8种格式文件(pdf、jpg、png等)进行文字识别。平台可以对历史翻译内容进行关键词检索,命中率高。同时提供手机移动端的微信小程序。

地址:平台地址