What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions

简介

大型语言模型（LLMs）是在大量人类编写的数据上训练的，但数据提供者通常没有得到应有的认可。为了解决这个问题，数据估值（或数据归属）被讨论为一个潜在的解决方案，它可以量化每个数据对模型输出的贡献或价值。然而，将现有的数据估值方法应用于最近的LLMs及其庞大的训练数据集往往受到计算和内存成本的限制。在这项工作中，我们专注于影响函数，这是一种流行的基于梯度的数据估值方法，并通过一种称为LoGra的高效梯度投影策略显著提高了其可扩展性，该策略利用了反向传播中的梯度结构。然后，我们提供了梯度投影方法对影响函数的理论动机，以促进对数据估值过程的信任。最后，我们通过引入LogIX降低了实现数据估值系统的门槛，该软件包可以将现有的训练代码转换为数据估值代码，而几乎不需要额外的努力。在我们的数据估值实验中，LoGra在与更昂贵的基线相比具有竞争力的准确性的同时，当应用于Llama3-8B-Instruct和1B令牌数据集时，吞吐量提高了多达6,500倍，并且GPU内存使用减少了5倍。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提高数据估值方法的可扩展性，以解决数据提供者未被充分认可的问题。
关键思路

使用一种高效的梯度投影策略LoGra，结合影响函数方法来进行数据估值，并提供理论证明。
其它亮点

LoGra方法在数据估值实验中表现出与更昂贵的基准线相当的准确性，同时在吞吐量上实现了高达6500倍的提升，并在GPU内存使用方面实现了5倍的降低。研究提出了一个名为LogIX的软件包，可以将现有的训练代码转换为数据估值代码。
相关研究

相关工作包括影响函数方法及其应用，梯度投影方法及其应用，以及数据估值在机器学习中的应用等。

What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions

提问交流

提问交流