SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages

2024年06月20日
  • 简介
    问答(QA)数据集对于开发和评估大型语言模型(LLM)的能力至关重要。然而,由于收集和手动注释的成本和难度,这样的数据集对于英语以外的语言来说很少见。这意味着在低资源语言中生产新模型和测量多语言LLM性能是具有挑战性的。为了缓解这种情况,我们提出了$\textbf{S}$yn$\textbf{DAR}$in,一种用于生成和验证低资源语言QA数据集的方法。我们利用并行内容挖掘获取英语和目标语言之间的$\textit{人工筛选}$段落。我们使用英语数据作为上下文来$\textit{生成}$合成的多项选择(MC)问题-答案对,这些对自动翻译和进一步验证以确保质量。将这些与其指定的非英语$\textit{人工筛选}$段落相结合形成最终的QA数据集。该方法可以维护内容质量,减少事实错误的可能性,并避免昂贵的注释需求。为了测试这种方法,我们为亚美尼亚语创建了一个包含1.2K个样本的QA数据集。人类评估显示,$98\%$的生成英语数据在问题类型和主题上保持了质量和多样性,而翻译验证管道可以过滤掉$\sim70\%$的质量较差的数据。我们使用数据集来基准测试最先进的LLM,显示它们无法达到人类的准确性,一些模型的表现接近随机。这表明生成的数据集是非平凡的,可用于评估低资源语言中的推理能力。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:论文提出了一种生成和验证低资源语言问答数据集的方法,以便评估多语言大语言模型在这些语言中的表现。
  • 关键思路
    关键思路:利用平行内容挖掘获取英语和目标语言之间的人工精选段落,使用英语数据作为上下文来生成合成的多项选择题-答案对,然后进行自动翻译和质量验证,最终与其指定的非英语人工精选段落相结合形成最终的问答数据集。
  • 其它亮点
    其他亮点:使用该方法生成了一个包含1.2K样本的亚美尼亚语问答数据集,并进行了人工评估。该数据集可用于评估低资源语言的推理能力,并用于测试最先进的大语言模型,结果表明,这些模型无法达到人类的准确性,有些模型的表现甚至接近随机。
  • 相关研究
    相关研究:该论文提到了其他语言的问答数据集的稀缺性,以及生成和验证这些数据集的困难性。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问