Token-wise Influential Training Data Retrieval for Large Language Models

简介

本文提出了一种名为RapidIn的可扩展框架，适用于大型语言模型（LLM），以估计每个训练数据的影响。该框架由两个阶段组成：缓存和检索。首先，通过超过200,000倍的压缩梯度向量，使它们能够在磁盘或GPU / CPU内存中缓存。然后，给定一个生成模型，RapidIn可以有效地遍历缓存的梯度，以在几分钟内估计影响，实现了超过6,326倍的加速。此外，RapidIn支持多GPU并行化，以大大加快缓存和检索速度。我们的实证结果证实了RapidIn的高效性和有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何识别导致大型语言模型生成的训练数据？
关键思路

提出了一种可扩展的框架RapidIn，用于评估每个训练数据的影响力。该框架包含两个阶段：缓存和检索。首先，通过压缩梯度向量超过200,000倍，使它们可以被缓存在磁盘或GPU / CPU内存中。然后，给定一代，RapidIn有效地遍历缓存的梯度以在几分钟内估计影响力，实现了超过6,326倍的加速。此外，RapidIn支持多GPU并行化，以大大加速缓存和检索。
其它亮点

论文的亮点包括使用RapidIn框架评估每个训练数据的影响力，以及支持多GPU并行化以加速缓存和检索。实验结果证实了RapidIn的效率和有效性。
相关研究

最近的相关研究包括Amit Dhurandhar等人的论文《Explanations based on the missing: Towards contrastive explanations with pertinent negatives》和Lipton等人的论文《The Mythos of Model Interpretability》。

Token-wise Influential Training Data Retrieval for Large Language Models

提问交流

提问交流