Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models

2024年04月09日
  • 简介
    本文中,许多人已经展示了大型语言模型(LLMs)可以应用于各种任务,但数据污染和记忆的关键问题经常被忽略。在本文中,我们针对表格数据解决了这个问题。具体而言,我们引入了多种不同的技术来评估语言模型在训练期间是否看到过表格数据集。这项调查揭示了LLMs已经逐字记住了许多受欢迎的表格数据集。然后,我们比较了LLMs在训练期间看到的数据集和训练后发布的数据集上的少样本学习性能。我们发现LLMs在训练期间看到的数据集上表现更好,表明记忆会导致过拟合。同时,LLMs在新数据集上表现出非常好的性能,并且对数据变换具有出乎意料的鲁棒性。然后,我们研究了LLMs的上下文统计学习能力。我们发现,在没有微调的情况下,它们的能力有限。这表明,LLMs在新数据集上的少样本性能很大程度上是由LLM的世界知识决定的。总的来说,我们的结果强调了测试LLM在预训练期间是否看到了评估数据集的重要性。我们将开发的曝光测试作为tabmemcheck Python包提供,网址为https://github.com/interpretml/LLM-Tabular-Memorization-Checker。
  • 图表
  • 解决问题
    本论文旨在解决语言模型在处理表格数据时可能出现的数据污染和记忆问题,探究语言模型是否会在训练中完全记忆表格数据集,并研究语言模型在处理未见过的表格数据集时的性能表现。
  • 关键思路
    论文提出了多种评估语言模型是否在训练中见过表格数据集的方法,并发现语言模型确实会完全记忆一些常见的表格数据集。论文进一步比较了语言模型在处理已见过和未见过的表格数据集时的性能差异,发现语言模型在已见过的数据集上表现更好,说明记忆会导致过拟合。同时,论文还探究了语言模型的统计学习能力,发现未经微调的语言模型的学习能力有限,大部分的性能提升是由于语言模型的世界知识。总的来说,论文的关键思路是通过评估语言模型是否完全记忆表格数据集来探究语言模型的性能表现和学习能力。
  • 其它亮点
    论文使用了多种评估语言模型记忆表格数据集的方法,并发现语言模型确实会完全记忆一些常见的表格数据集。论文还比较了语言模型在处理已见过和未见过的表格数据集时的性能差异,发现语言模型在已见过的数据集上表现更好,说明记忆会导致过拟合。此外,论文探究了语言模型的统计学习能力,发现未经微调的语言模型的学习能力有限,大部分的性能提升是由于语言模型的世界知识。论文代码开源,提供了tabmemcheck Python包。
  • 相关研究
    最近的相关研究包括:1.《BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model》;2.《On the (Statistical) Detection of Adversarial Examples》;3.《Data Poisoning Attacks Against Autoregressive Language Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论