TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data

简介

指令调整在自然语言处理领域取得了前所未有的成功，将大型语言模型转化为多功能聊天机器人。然而，指令数据集的种类和数量不断增加，需要大量的计算资源。为了解决这个问题，必须提取一个小而高度信息化的子集（即Coreset），其性能与完整数据集相当。实现这个目标面临着不少挑战：1）数据选择需要准确的数据表示，以反映训练样本的质量；2）考虑到指令数据集的多样性；3）确保大型模型下Coreset选择算法的效率。为了解决这些问题，我们提出了任务无关梯度聚类Coreset选择（TAGCOS）。具体而言，我们利用样本梯度作为数据表示，进行聚类以将相似的数据分组，并应用高效的贪婪算法进行Coreset选择。实验结果表明，我们的算法仅选择了5%的数据，超越了其他无监督方法，并实现了接近完整数据集的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决大型自然语言处理模型在处理多样化和大量指令数据集时需要大量计算资源的问题，提出了一种高效的数据子集选择方法。
关键思路

文章提出了一种名为TAGCOS的方法，利用样本梯度作为数据表示，进行聚类以将相似的数据分组，并应用高效的贪心算法进行数据子集选择。
其它亮点

实验结果表明，TAGCOS算法只选择了5％的数据，就超过了其他无监督方法，并实现了接近完整数据集的性能。本文的方法可以为大型NLP模型的训练提供高效的数据子集选择方法。
相关研究

与本文相关的研究包括数据子集选择的其他方法，如K-center和K-Median算法，以及基于聚类的方法，如K-means和K-medoids算法。

TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data

提问交流

提问交流