Open-Source Web Service with Morphological Dictionary-Supplemented Deep Learning for Morphosyntactic Analysis of Czech

2024年06月18日
  • 简介
    我们提供了一个用于捷克语形态句法分析的开源网络服务。该系统在推理过程中将深度学习模型与高精度形态学词典的重新评分相结合。我们展示了我们的混合方法超越了两个竞争基线:深度学习模型确保了对于词汇表外的单词和更好的消歧,相比现有的形态分析器MorphoDiTa有所改进,同时,深度学习模型从人工策划的形态学词典的推理时间引导中受益。我们在词形还原上实现了50%的错误减少和在POS标记上实现了58%的错误减少,同时还提供了依赖解析。该模型是在目前最大的捷克语形态句法语料库之一PDT-C 1.0上训练的,训练好的模型可在https://hdl.handle.net/11234/1-5293上获得。我们将该工具作为网络服务提供,在https://lindat.mff.cuni.cz/services/udpipe/上部署。源代码可在GitHub(https://github.com/ufal/udpipe/tree/udpipe-2)上获得,同时还提供了一个Python客户端以供简单使用。模型的文档可以在https://ufal.mff.cuni.cz/udpipe/2/models#czech_pdtc1.0_model找到。
  • 图表
  • 解决问题
    本文旨在提出一种用于捷克语形态句法分析的深度学习模型,并在推理时结合高精度的形态学词典进行重评分。该模型旨在提高词形还原和词性标注的准确性。
  • 关键思路
    本文提出了一种混合方法,将深度学习模型和手动筛选的形态学词典结合在一起,以提高捷克语形态句法分析的准确性。深度学习模型提高了未登录词的泛化能力和更好的消歧能力,而形态学词典则在推理时为深度学习模型提供指导。
  • 其它亮点
    本文在捷克语形态句法分析方面取得了显著的成果,词形还原和词性标注的错误率分别减少了50%和58%。同时,本文还提供了依存分析。该模型是在捷克语形态句法语料库PDT-C 1.0上训练的,已经开源并提供了Python客户端。
  • 相关研究
    最近在该领域中的相关研究包括:1. MorphoDiTa:一种基于规则和统计的形态句法分析器;2. CoNLL 2017 Shared Task:针对多语言依存分析的共享任务。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论