SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation

简介

大型语言模型（LLMs）非常灵活，可以解决许多任务，但为了计算效率，通常希望将它们的能力转化为更小的学生模型。对于分类任务，一种方法是通过数据集合成来实现，这可以通过从LLM生成每个标签的示例来完成。以前的综合方法使用少量提示，这依赖于LLM的参数知识来生成可用的示例。然而，这会导致重复、偏向流行实体和与人类文本不同的风格等问题。在这项工作中，我们提出了“检索和精炼综合”（SynthesizRR），它使用检索增强来引入多样性到数据集综合过程中：随着检索到的段落的变化，LLM会被不同的内容“种子化”来生成它的示例。我们经验性地研究了六个数据集的综合，涵盖主题分类、情感分析、语气检测和幽默，需要复杂的综合策略。与标准的32次提示和六种基线方法相比，我们发现SynthesizRR大大提高了词汇和语义多样性、与人类书写文本的相似性以及蒸馏性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决数据集合成中存在的重复、偏向流行实体和与人类文本的风格差异等问题，提出了一种新的数据集合成方法Synthesize by Retrieval and Refinement (SynthesizRR)。
关键思路

SynthesizRR使用检索增强来引入数据集合成过程中的多样性，从而改善了词汇和语义多样性、与人类文本的相似性以及蒸馏性能。
其它亮点

论文使用了六个数据集，包括主题分类、情感分析、语气检测和幽默等，证明了SynthesizRR相对于标准的32-shot提示和六个基线方法在数据集合成方面的优越性。实验结果表明，SynthesizRR显著提高了词汇和语义多样性、与人类文本的相似性以及蒸馏性能。论文还提供了开源代码。
相关研究

最近的相关研究包括Few-shot学习、数据增强和数据集合成等。

SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation

提问交流

提问交流