The SAMER Arabic Text Simplification Corpus

2024年04月29日
  • 简介
    我们提供了SAMER语料库,这是针对学龄儿童的阿拉伯文本简化的第一个手动注释的平行语料库。我们的语料库包括159K个单词的文本,选自15本公开可得的阿拉伯小说,其中大部分出版于1865年至1955年之间。我们的语料库包括文档和单词级别的可读性注释,以及每个文本的两个简化平行版本,针对不同可读性水平的学习者。我们描述了语料库的选择过程,并概述了我们遵循的指南,以创建注释并确保其质量。我们的语料库是公开可用的,以支持和鼓励阿拉伯文本简化、阿拉伯自动可读性评估和阿拉伯语言教育技术的发展研究。
  • 图表
  • 解决问题
    SAMER Corpus是第一个手动注释的阿拉伯语平行语料库,用于文本简化,旨在面向学龄孩童。该论文试图解决阿拉伯语文本简化和自动可读性评估领域的问题。
  • 关键思路
    该论文提出了一种使用15本公共阿拉伯小说创建阿拉伯语文本简化平行语料库的方法,并在文档和单词级别上进行了可读性级别注释。该论文的新颖之处在于其注重阿拉伯语文本简化领域的研究,并提供了可重复使用的数据集。
  • 其它亮点
    该论文的亮点包括:使用15本公共阿拉伯小说创建了阿拉伯语文本简化平行语料库;在文档和单词级别上进行了可读性级别注释;提供了两个简化版本的平行文本,面向不同可读性级别的学习者;数据集已公开发布,可用于支持阿拉伯语文本简化、自动可读性评估和阿拉伯语教育语言技术的研究。
  • 相关研究
    在阿拉伯语文本简化和自动可读性评估领域,最近的相关研究包括:\n1. ARAST: Arabic Automatic Readability Assessment Tool\n2. Arabic Text Readability Assessment Using Machine Learning Techniques\n3. A Comparative Study of Features for Arabic Text Readability Assessment
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论