Empowering Large Language Models for Textual Data Augmentation

简介

具备理解和执行自然语言指令的大型语言模型（LLM）有潜力成为文本数据增强的强有力工具。然而，增强数据的质量很大程度上取决于提供的增强指令，而其有效性在不同的下游任务中会有所波动。虽然手动制作和选择指令可以提供一些改进，但由于下游任务的多样性，这种方法在实践中面临可扩展性和一致性问题。在本文中，我们提出了一种新的解决方案，可以自动生成大量的增强指令，并选择最适合任务的指令，从而使LLM能够为不同的下游任务创建高质量的增强数据。实验证明，所提出的方法始终生成比非LLM和基于LLM的数据增强方法更好质量的增强数据，从而在源自广泛应用领域的26个少样本学习任务中取得最佳表现。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

自然语言数据扩充的质量对任务效果有重要影响，但手动选择扩充指令存在可扩展性和一致性问题。本文提出自动生成扩充指令并选择最适合任务的指令的方法，以改善数据扩充的效果。
关键思路

本文提出的方法可以自动生成大量的扩充指令，并根据任务选择最适合的指令，从而提高数据扩充的质量。
其它亮点

本文的方法在26个少样本学习任务中得到了最好的表现，比非LLM和基于LLM的数据扩充方法都表现更好。
相关研究

与本文相关的研究包括数据扩充、少样本学习、自然语言处理等领域的研究。

Empowering Large Language Models for Textual Data Augmentation

提问交流

提问交流