What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions

2024年05月22日
  • 简介
    大型语言模型(LLMs)是在大量人类编写的数据上训练的,但数据提供者通常没有得到应有的认可。为了解决这个问题,数据估值(或数据归属)被讨论为一个潜在的解决方案,它可以量化每个数据对模型输出的贡献或价值。然而,将现有的数据估值方法应用于最近的LLMs及其庞大的训练数据集往往受到计算和内存成本的限制。在这项工作中,我们专注于影响函数,这是一种流行的基于梯度的数据估值方法,并通过一种称为LoGra的高效梯度投影策略显著提高了其可扩展性,该策略利用了反向传播中的梯度结构。然后,我们提供了梯度投影方法对影响函数的理论动机,以促进对数据估值过程的信任。最后,我们通过引入LogIX降低了实现数据估值系统的门槛,该软件包可以将现有的训练代码转换为数据估值代码,而几乎不需要额外的努力。在我们的数据估值实验中,LoGra在与更昂贵的基线相比具有竞争力的准确性的同时,当应用于Llama3-8B-Instruct和1B令牌数据集时,吞吐量提高了多达6,500倍,并且GPU内存使用减少了5倍。
  • 作者讲解
  • 图表
  • 解决问题
    提高数据估值方法的可扩展性,以解决数据提供者未被充分认可的问题。
  • 关键思路
    使用一种高效的梯度投影策略LoGra,结合影响函数方法来进行数据估值,并提供理论证明。
  • 其它亮点
    LoGra方法在数据估值实验中表现出与更昂贵的基准线相当的准确性,同时在吞吐量上实现了高达6500倍的提升,并在GPU内存使用方面实现了5倍的降低。研究提出了一个名为LogIX的软件包,可以将现有的训练代码转换为数据估值代码。
  • 相关研究
    相关工作包括影响函数方法及其应用,梯度投影方法及其应用,以及数据估值在机器学习中的应用等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问