SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages

简介

问答（QA）数据集对于开发和评估大型语言模型（LLM）的能力至关重要。然而，由于收集和手动注释的成本和难度，这样的数据集对于英语以外的语言来说很少见。这意味着在低资源语言中生产新模型和测量多语言LLM性能是具有挑战性的。为了缓解这种情况，我们提出了$\textbf{S}$yn$\textbf{DAR}$in，一种用于生成和验证低资源语言QA数据集的方法。我们利用并行内容挖掘获取英语和目标语言之间的$\textit{人工筛选}$段落。我们使用英语数据作为上下文来$\textit{生成}$合成的多项选择（MC）问题-答案对，这些对自动翻译和进一步验证以确保质量。将这些与其指定的非英语$\textit{人工筛选}$段落相结合形成最终的QA数据集。该方法可以维护内容质量，减少事实错误的可能性，并避免昂贵的注释需求。为了测试这种方法，我们为亚美尼亚语创建了一个包含1.2K个样本的QA数据集。人类评估显示，$98\%$的生成英语数据在问题类型和主题上保持了质量和多样性，而翻译验证管道可以过滤掉$\sim70\%$的质量较差的数据。我们使用数据集来基准测试最先进的LLM，显示它们无法达到人类的准确性，一些模型的表现接近随机。这表明生成的数据集是非平凡的，可用于评估低资源语言中的推理能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文提出了一种生成和验证低资源语言问答数据集的方法，以便评估多语言大语言模型在这些语言中的表现。
关键思路

关键思路：利用平行内容挖掘获取英语和目标语言之间的人工精选段落，使用英语数据作为上下文来生成合成的多项选择题-答案对，然后进行自动翻译和质量验证，最终与其指定的非英语人工精选段落相结合形成最终的问答数据集。
其它亮点

其他亮点：使用该方法生成了一个包含1.2K样本的亚美尼亚语问答数据集，并进行了人工评估。该数据集可用于评估低资源语言的推理能力，并用于测试最先进的大语言模型，结果表明，这些模型无法达到人类的准确性，有些模型的表现甚至接近随机。
相关研究

相关研究：该论文提到了其他语言的问答数据集的稀缺性，以及生成和验证这些数据集的困难性。

SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages

提问交流

提问交流