- 简介问答生成(QAG)是一种有效的数据增强技术,可提高问答系统的准确性,特别是在低资源领域。虽然最近基于预训练和大型语言模型的QAG方法取得了实质性进展,但它们面临重要问题,即冗余的问答对生成会影响下游QA系统。隐式多样性技术,如抽样和多样性束搜索已被证明是有效的解决方案,但往往产生较小的多样性。我们提出了QAG的显式多样性条件,重点关注空间方面、问题类型和实体,从根本上增加了QA生成的多样性。我们的工作强调了通过显式多样性条件生成多样化的问答合成数据的需求,通过在现有广泛采用的隐式多样性技术上显示出了下游QA任务的显着改进。特别是,在使用显式多样性条件生成的QA对来训练下游QA模型时,在SQuADDU上的精确匹配和F1分数平均提高了4.1%和4.5%,超过了隐式抽样技术的QAG。我们的工作更加强调了在低资源数据集(SubjQA)中需要显式多样性条件,平均下游QA性能提高约12%EM。
- 图表
- 解决问题本篇论文试图通过显式的多样性条件来生成更多样化的问题-答案对,以提高QA系统的准确性,特别是在低资源领域。
- 关键思路本文提出了一种显式的多样性条件,包括空间方面、问题类型和实体,以增加QA生成中的多样性,从而提高下游QA任务的性能。相比于隐式多样性技术,显式多样性条件在SQuADDU数据集上平均提高了4.1%的精确匹配和4.5%的F1值。在低资源数据集SubjQA上,平均下游QA性能提高了约12% EM。
- 其它亮点本文的实验使用了SQuADDU和SubjQA数据集,并比较了显式多样性条件和隐式多样性技术的效果。结果表明,显式多样性条件能够显著提高QA系统的准确性。此外,本文提供了开源代码。
- 近期的研究主要集中在使用预训练和大型语言模型的QAG方法,以及隐式多样性技术的改进。
沙发等你来抢
去评论
评论
沙发等你来抢