Data Contamination Can Cross Language Barriers

2024年06月19日
  • 简介
    本文探讨了开发大型语言模型(LLMs)的不透明性问题,这引发了人们对预训练数据中公共基准的潜在污染的日益关注。现有的污染检测方法通常基于训练和评估数据之间的文本重叠,这可能过于肤浅,无法反映更深层次的污染。本文首先提出了一种跨语言形式的污染,通过在基准测试集的翻译版本上过度拟合LLMs,从而使LLMs的性能得到提高,同时避开了当前的检测方法。然后,我们提出了基于泛化的方法来揭示这种深度隐藏的污染。具体来说,我们检查了LLMs在将错误答案选项替换为其他问题的正确答案后,原始基准的性能变化。受污染的模型几乎无法推广到这种更容易的情况,其中错误的选择可能是“甚至不正确的”,因为它们的记忆中所有的选项都是正确的。实验结果表明,跨语言污染可以轻易地欺骗现有的检测方法,但不能欺骗我们的方法。此外,我们还讨论了跨语言污染在解释LLMs工作机制和在后期训练LLMs以增强多语言能力方面的潜在利用。我们使用的代码和数据集可以从\url{https://github.com/ShangDataLab/Deep-Contam}获取。
  • 图表
  • 解决问题
    如何检测深度污染的大型语言模型(LLMs)的性能提高?
  • 关键思路
    使用基于泛化的方法检测深度污染,通过替换错误答案选项来测试模型的泛化能力。
  • 其它亮点
    论文提出了一种跨语言的污染方法,并通过实验验证了基于泛化的检测方法的有效性。论文还探讨了跨语言污染在解释LLMs工作机制和提高多语言能力方面的潜在应用。
  • 相关研究
    近期的相关研究包括:《Language Models as Knowledge Bases?》、《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论