- 简介拉丁语言已经引起了计算语言学研究界的关注,研究者们多年来建立了许多有价值的资源,从详细注释的语料库到用于语言分析的复杂工具。随着大型语言模型的出现,研究者们也开始开发能够生成拉丁文本向量表示的模型。由于可用数据的差异,这些模型的性能仍然落后于现代语言的模型。本文介绍了LiMe数据集,这是一组从一系列名为“Libri sententiarum potestatis Mediolani”的中世纪手稿中提取的325个文档的语料库,由专家进行了彻底的注释,以便用于遮蔽语言模型以及监督式自然语言处理任务。
- 图表
- 解决问题本论文旨在介绍一份包含325份中世纪手稿的文本语料库LiMe,该库经过专家详细注释,可用于掩码语言模型和监督自然语言处理任务。
- 关键思路本文提出了一种解决古拉丁文语料库中数据稀缺问题的方法,即构建一个注释详细的语料库,并使用大型语言模型进行文本向量表示。
- 其它亮点本文介绍了LiMe数据集的构建,包括手稿的选择、注释方式和质量控制。同时,本文还介绍了LiMe数据集在掩码语言模型和监督自然语言处理任务中的表现,并与其他语料库进行了比较。此外,本文还开源了LiMe数据集和相关代码。
- 最近的相关研究包括对古拉丁文语料库的注释和分析方法的改进,以及使用大型语言模型进行文本表示的研究。相关论文包括《Annotating Latin Treebanks: Guidelines and Perspectives》和《Modeling Latin inflection with a neural sequence-to-sequence model》等。
沙发等你来抢
去评论
评论
沙发等你来抢