- 简介大型语言模型(LLMs)非常灵活,可以解决许多任务,但为了计算效率,通常希望将它们的能力转化为更小的学生模型。对于分类任务,一种方法是通过数据集合成来实现,这可以通过从LLM生成每个标签的示例来完成。以前的综合方法使用少量提示,这依赖于LLM的参数知识来生成可用的示例。然而,这会导致重复、偏向流行实体和与人类文本不同的风格等问题。在这项工作中,我们提出了“检索和精炼综合”(SynthesizRR),它使用检索增强来引入多样性到数据集综合过程中:随着检索到的段落的变化,LLM会被不同的内容“种子化”来生成它的示例。我们经验性地研究了六个数据集的综合,涵盖主题分类、情感分析、语气检测和幽默,需要复杂的综合策略。与标准的32次提示和六种基线方法相比,我们发现SynthesizRR大大提高了词汇和语义多样性、与人类书写文本的相似性以及蒸馏性能。
-
- 图表
- 解决问题本论文旨在解决数据集合成中存在的重复、偏向流行实体和与人类文本的风格差异等问题,提出了一种新的数据集合成方法Synthesize by Retrieval and Refinement (SynthesizRR)。
- 关键思路SynthesizRR使用检索增强来引入数据集合成过程中的多样性,从而改善了词汇和语义多样性、与人类文本的相似性以及蒸馏性能。
- 其它亮点论文使用了六个数据集,包括主题分类、情感分析、语气检测和幽默等,证明了SynthesizRR相对于标准的32-shot提示和六个基线方法在数据集合成方面的优越性。实验结果表明,SynthesizRR显著提高了词汇和语义多样性、与人类文本的相似性以及蒸馏性能。论文还提供了开源代码。
- 最近的相关研究包括Few-shot学习、数据增强和数据集合成等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流