A Taxonomy for Data Contamination in Large Language Models

2024年07月11日
  • 简介
    大规模的自然语言模型在广泛的网络语料库上进行预训练,表现出在各种下游任务中的卓越性能。然而,一个日益严重的问题是数据污染,即评估数据集可能包含在预训练语料库中,从而提高模型性能。去污染是一种检测和删除这些数据的潜在解决方案;然而,这些污染物可能来自测试集的修改版本,在去污染过程中逃脱检测。不同类型的污染物如何影响语言模型在下游任务中的表现还不完全清楚。我们提出了一种分类法,将LLMs在预训练阶段遇到的各种类型的污染物进行分类,并确定哪些类型具有最高风险。我们分析了污染对两个关键的NLP任务-摘要和问答-的影响,揭示了不同类型的污染物如何影响在评估期间的任务表现。
  • 图表
  • 解决问题
    本文旨在解决语言模型在预训练阶段中可能存在的数据污染问题,以及这种污染会对下游任务的性能产生什么影响。
  • 关键思路
    本文提出了一种分类污染的方法,并分析了不同类型污染对文本摘要和问答任务的影响。
  • 其它亮点
    本文的亮点包括提出了一种污染分类方法,揭示了污染对下游任务的影响,以及提供了一些开源数据和代码。
  • 相关研究
    最近的相关研究包括《BERT模型中的掩码语言建模》和《RoBERTa:一个鲁棒、优化的BERT预训练方法》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论