Opera Graeca Adnotata: Building a 34M+ Token Multilayer Corpus for Ancient Greek

2024年03月31日
  • 简介
    本文介绍了Opera Graeca Adnotata(OGA)的beta版本0.1.0,这是最大的古希腊开放多层语料库。OGA包括来自PerseusDL和OpenGreekAndLatin GitHub存储库的1,687个文学作品和34M+个标记,这些存储库包含了从公元前约800年到公元约250年的古希腊文本。这些文本已经被七个注释层所丰富:(i)标记化层;(ii)句子分割层;(iii)词形还原层;(iv)形态学层;(v)依存关系层;(vi)依存函数层;(vii)规范文本服务(CTS)引用层。本文描述了每个层的创建过程,重点介绍了遇到的主要技术和注释相关问题。标记化、句子分割和CTS引用是基于规则的算法实现的,而形态句法注释是Ancient Greek Dependency Treebank数据训练的COMBO解析器的输出。为了实现可扩展性和可重用性,语料库以PAULA XML和其后代LAULA XML的标准格式发布。
  • 图表
  • 解决问题
    介绍Opera Graeca Adnotata(OGA)beta版本0.1.0,这是古希腊最大的开放式多层语料库,旨在提高古希腊文本的可访问性和可重用性。
  • 关键思路
    使用七个注释层(分词、句子分割、词形还原、形态学、依赖关系、依赖关系函数和CTS引用层)对1,687个文学作品和34M+标记进行注释,使用PAULA XML和LAULA XML格式发布语料库。
  • 其它亮点
    使用规则算法进行分词、句子分割和CTS引用,使用Ancient Greek Dependency Treebank的数据训练COMBO解析器进行形态句法注释。
  • 相关研究
    最近的相关研究还包括Ancient Greek Dependency Treebank和Perseus Digital Library。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论