标注训练数据不足一直是有监督学习的痛点,事件以其复杂的内部结构加大获得有标注数据的难度。现有的数据增强方法生成的伪数据或不符合语法学或改变原始数据的语义信息。针对上述问题,本文提出基于抽象语义表示回译-改写的事件检测数据增强方法。能在保证不改变原训练数据语义的前提下,获得表达自然且形式多样的训练实例,增加训练实例的多样性。在ACE2005事件检测数据集上的实验验证我们方法的有效性。此外,使用本文的事件检测数据增强方法,在基于ACE2005数据集人工构建的小规模数据上带来的性能提升,证明本文的方法在小规模数据场景也同样适用。
评论
沙发等你来抢