- 简介这项工作描述了我们参加SIGTYP 2024共享任务受限子任务的提交情况,主要关注13种历史语言的词性标注、形态标注和词形还原。历史语言对自然语言处理领域提出了独特的挑战,其中一个主要障碍是封闭语料库中可用资源的有限性。对于词性标注和形态标注,我们采用了Sun等人(2023)的分层分词方法,并结合DeBERTa-V3架构的优势,使我们的模型能够有效地从训练数据中学习每个字符。我们还展示了字符级别的T5模型在词形还原任务上的有效性。我们的模型从头开始进行了有限数据的预训练,在受限子任务中获得了第一名的成绩,几乎达到了无限制任务获胜者的性能水平。我们的代码可在https://github.com/bowphs/SIGTYP-2024-hierarchical-transformers中找到。
- 图表
- 解决问题本论文旨在解决历史语言NLP领域中的资源匮乏问题,针对13种历史语言的PoS标注、形态标注和词形归并等任务提出有效的解决方案。
- 关键思路论文采用了来自Sun等人(2023)的分层分词方法,并结合DeBERTa-V3架构的优点,使模型能够高效地从训练数据的每个字符中学习。同时,论文还展示了字符级T5模型在词形归并任务上的有效性。
- 其它亮点论文的模型在有限的数据集上训练,从零开始预训练,取得了约束子任务的第一名成绩,几乎达到了无约束子任务的优胜者的性能水平。论文的代码已经开源。
- 最近的相关研究包括历史语言NLP领域的其他工作,如《A Comprehensive Study of Named Entity Recognition in Historical German》和《A Transformer-based Approach to PoS Tagging in Historical Chinese》等。
沙发等你来抢
去评论
评论
沙发等你来抢