Noise-Aware Training of Layout-Aware Language Models

2024年03月30日
  • 简介
    本文讨论了一种称为“VRD”的视觉丰富文档,它利用视觉特征和语言线索来传播信息。在企业场景中,我们希望以可扩展的方式为数千种不同类型的文档训练自定义提取器,因此需要大量标注了文本和视觉模态的目标文档类型的实例来训练自定义提取器,这是一个昂贵的瓶颈。本文提出了一种名为“NAT”的噪声感知训练方法,它利用弱标记文档以可扩展的方式训练提取器,而不是获取昂贵的人工标记文档。为了避免噪声、弱标记样本对模型质量的降低,NAT在训练过程中估计每个训练样本的置信度,并将其作为不确定性度量进行整合。我们使用NAT训练了多个最先进的提取器模型。在多个公开和内部数据集上的实验表明,NAT训练的模型不仅性能稳健,而且在宏F1得分方面比迁移学习基线高出多达6%,而且更加高效,可以将人力成本降低高达73%。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决企业场景下训练自定义提取器的困境,即需要大量标注文本和视觉模态的目标文档实例,但这是一个昂贵的瓶颈。
  • 关键思路
    本文提出了一种噪声感知训练方法(NAT),通过利用弱标注文档来训练提取器,避免了获取昂贵人工标注文档的成本,并在训练过程中估计每个样本的置信度作为不确定性度量,从而避免了因噪声弱标注样本导致模型质量下降的问题。
  • 其它亮点
    本文提出的NAT方法不仅在性能上表现出色,相比迁移学习基线,宏F1分数提高了6%,而且在标签效率方面也更高效,可以将人工标注数据量减少高达73%。实验采用了多个公开数据集和内部数据集进行测试,并且提供了开源代码。
  • 相关研究
    相关研究包括使用迁移学习进行提取器训练的方法,以及使用弱监督进行实体标注的方法。其中,文献[1]介绍了使用迁移学习和自监督学习进行提取器训练的方法,文献[2]则提出了一种使用弱监督学习进行实体标注的方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问