Empowering Large Language Models for Textual Data Augmentation

2024年04月26日
  • 简介
    具备理解和执行自然语言指令的大型语言模型(LLM)有潜力成为文本数据增强的强有力工具。然而,增强数据的质量很大程度上取决于提供的增强指令,而其有效性在不同的下游任务中会有所波动。虽然手动制作和选择指令可以提供一些改进,但由于下游任务的多样性,这种方法在实践中面临可扩展性和一致性问题。在本文中,我们提出了一种新的解决方案,可以自动生成大量的增强指令,并选择最适合任务的指令,从而使LLM能够为不同的下游任务创建高质量的增强数据。实验证明,所提出的方法始终生成比非LLM和基于LLM的数据增强方法更好质量的增强数据,从而在源自广泛应用领域的26个少样本学习任务中取得最佳表现。
  • 作者讲解
  • 图表
  • 解决问题
    自然语言数据扩充的质量对任务效果有重要影响,但手动选择扩充指令存在可扩展性和一致性问题。本文提出自动生成扩充指令并选择最适合任务的指令的方法,以改善数据扩充的效果。
  • 关键思路
    本文提出的方法可以自动生成大量的扩充指令,并根据任务选择最适合的指令,从而提高数据扩充的质量。
  • 其它亮点
    本文的方法在26个少样本学习任务中得到了最好的表现,比非LLM和基于LLM的数据扩充方法都表现更好。
  • 相关研究
    与本文相关的研究包括数据扩充、少样本学习、自然语言处理等领域的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问