KazQAD: Kazakh Open-Domain Question Answering Dataset

2024年04月06日
  • 简介
    我们介绍了KazQAD——一份哈萨克斯坦的开放领域问答(ODQA)数据集,可以用于阅读理解和完整ODQA设置,以及信息检索实验。KazQAD包含近6000个唯一的问题,提取了简短的答案,并且包含近12000个段落级别的相关性判断。我们使用机器翻译、维基百科搜索和内部手动注释的组合来确保注释效率和数据质量。这些问题来自两个来源:来自自然问题(NQ)数据集的翻译项目(仅用于训练),以及哈萨克斯坦统一国家测试(UNT)考试的原始问题(用于开发和测试)。伴随的文本语料库包含来自哈萨克斯坦维基百科的800,000多个段落。作为补充数据集,我们发布了约61,000个已被机器翻译成哈萨克语的NQ数据集的问题-段落-答案三元组。我们开发了基线检索器和阅读器,在检索(NDCG@10 = 0.389 MRR = 0.382)、阅读理解(EM = 38.5 F1 = 54.2)和完整ODQA(EM = 17.8 F1 = 28.7)设置中取得了合理的分数。然而,这些结果明显低于英文QA集合的最新技术水平,我们认为仍有充足的改进空间。我们还展示了当前的OpenAI's ChatGPTv3.5无法在闭卷设置中以可接受的质量回答KazQAD测试问题。该数据集在知识共享许可证(CC BY-SA)下免费提供,网址为https://github.com/IS2AI/KazQAD。
  • 图表
  • 解决问题
    这篇论文旨在介绍 KazQAD 数据集,该数据集包含了近 6000 个问题及其短答案,以及将近 12000 个段落级别的相关性判断。该数据集可用于阅读理解和全面开放域问答设置,以及信息检索实验。作者试图解决的问题是缺乏针对哈萨克语的开放域问答数据集,以及缺乏相关研究。这是一个新问题。
  • 关键思路
    本文提出了 KazQAD 数据集,该数据集使用机器翻译、维基百科搜索和内部手动注释相结合的方式来确保注释效率和数据质量。作者开发了基线检索器和阅读器,在检索、阅读理解和全面开放域问答设置方面实现了合理的分数。与英语 QA 集合的最新结果相比,这些结果明显较低,但仍有充足的提升空间。
  • 其它亮点
    该论文值得关注的亮点包括:1. KazQAD 数据集的发布,该数据集包含近 6000 个问题及其短答案,以及将近 12000 个段落级别的相关性判断;2. 作者使用机器翻译、维基百科搜索和内部手动注释相结合的方式来确保注释效率和数据质量;3. 作者开发了基线检索器和阅读器,在检索、阅读理解和全面开放域问答设置方面实现了合理的分数;4. 作者证明当前的 OpenAI's ChatGPTv3.5 无法在闭书设置下回答 KazQAD 测试问题;5. 该数据集是免费提供的,可以在 GitHub 上找到。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. Natural Questions (NQ) 数据集;2. Unified National Testing (UNT) 考试。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论