Token-wise Influential Training Data Retrieval for Large Language Models

2024年05月20日
  • 简介
    本文提出了一种名为RapidIn的可扩展框架,适用于大型语言模型(LLM),以估计每个训练数据的影响。该框架由两个阶段组成:缓存和检索。首先,通过超过200,000倍的压缩梯度向量,使它们能够在磁盘或GPU / CPU内存中缓存。然后,给定一个生成模型,RapidIn可以有效地遍历缓存的梯度,以在几分钟内估计影响,实现了超过6,326倍的加速。此外,RapidIn支持多GPU并行化,以大大加快缓存和检索速度。我们的实证结果证实了RapidIn的高效性和有效性。
  • 作者讲解
  • 图表
  • 解决问题
    如何识别导致大型语言模型生成的训练数据?
  • 关键思路
    提出了一种可扩展的框架RapidIn,用于评估每个训练数据的影响力。该框架包含两个阶段:缓存和检索。首先,通过压缩梯度向量超过200,000倍,使它们可以被缓存在磁盘或GPU / CPU内存中。然后,给定一代,RapidIn有效地遍历缓存的梯度以在几分钟内估计影响力,实现了超过6,326倍的加速。此外,RapidIn支持多GPU并行化,以大大加速缓存和检索。
  • 其它亮点
    论文的亮点包括使用RapidIn框架评估每个训练数据的影响力,以及支持多GPU并行化以加速缓存和检索。实验结果证实了RapidIn的效率和有效性。
  • 相关研究
    最近的相关研究包括Amit Dhurandhar等人的论文《Explanations based on the missing: Towards contrastive explanations with pertinent negatives》和Lipton等人的论文《The Mythos of Model Interpretability》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问