FastGAS: Fast Graph-based Annotation Selection for In-Context Learning

简介

本文介绍了一种上下文学习（ICL）方法，它通过使用一系列训练实例作为提示来增强大型语言模型（LLMs）对新任务的处理能力。由于生成提示需要从大量实例中进行采样并进行注释（例如，在分类任务中添加标签），因此现有方法提出选择一些未标记的示例进行注释，从而提高提示的质量并同时减少注释成本。然而，这些方法通常需要很长时间来选择实例，因为它们的复杂性，这限制了它们的实际可行性。为了解决这个限制，本文提出了一种基于图的选择方法FastGAS，旨在高效地识别高质量的实例，同时最小化计算开销。首先，我们基于实例相似性构建数据相似性图。随后，采用图分割算法将图划分为多个子图。在每个子图中，我们采用贪心方法选择最具代表性的节点。通过聚合来自不同子图的节点并注释相应的实例，我们可以识别一组多样化和具有代表性的实例，以用于ICL。与先前的方法相比，我们的方法不仅在不同任务上表现出优异的性能，而且显著减少了选择时间。此外，我们还展示了我们的方法在更大规模的LLMs中的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

FastGAS试图解决的问题是在进行大规模语言模型的新任务时，如何高效地选择一组高质量的训练样本，以便生成高质量的提示，同时减少注释成本。
关键思路

FastGAS的关键思路是使用图分区算法和贪心算法来选择最具代表性的节点，以形成高质量的训练样本集合，同时最大程度地减少计算开销。
其它亮点

FastGAS方法不仅在不同任务上表现出优越的性能，而且显著减少了选择时间。该方法的有效性在更大规模的语言模型中也得到了证明。
相关研究

与FastGAS相关的研究包括基于主动学习的样本选择方法和基于聚类的方法。

FastGAS: Fast Graph-based Annotation Selection for In-Context Learning

提问交流

提问交流