Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?

Jonathan Hayase ,
Alisa Liu ,
Yejin Choi ,
Sewoong Oh ,
Noah A. Smith
707
热度
2024年07月23日
  • 简介
    本文的最后一段介绍了一种名为“数据混合推断”的任务,旨在揭示语言模型训练数据的分布构成,以解决当前最强语言模型的预训练数据不透明的问题,特别是对于各种领域或语言的比例了解甚少。作者提出了一种新颖的攻击方法,基于一种先前被忽视的信息源——字节对编码(BPE)分词器,该分词器被现代大多数语言模型使用。作者的关键洞察力是,BPE分词器学习到的有序合并规则列表自然地揭示了其训练数据中的词频信息:第一个合并是最常见的字节对,第二个是在合并第一个令牌后最常见的对,依此类推。作者通过给定一个分词器的合并列表以及每个感兴趣类别的数据样本,制定了一个线性规划,解决了分词器训练集中每个类别的比例。在受控实验中,作者展示了他们的攻击方法可以高精度地恢复出在自然语言、编程语言和数据源混合的已知分词器中的混合比例。然后,作者应用他们的方法于最近发布的语言模型中的预训练分词器,确认了公开披露的信息,并作出了一些新的推断:GPT-4o的分词器比其前身更多地支持多语言,训练了39%的非英文数据;Llama3主要用于多语言(48%)的扩展GPT-3.5的分词器;GPT-3.5和Claude的分词器主要训练于代码(~60%)。作者希望他们的工作能够揭示当前预训练数据设计实践的一些问题,并激发对于语言模型数据混合推断的进一步研究。
  • 图表
  • 解决问题
    本论文尝试解决的问题是揭示现有最强语言模型训练数据的分布情况,即各种领域或语言的比例。这个问题是新问题。
  • 关键思路
    本论文提出了一种新的攻击方法,基于BPE分词器,通过分析BPE分词器的合并规则,间接地推断出训练数据的分布情况。同时,通过控制实验,论文还验证了该方法的有效性。
  • 其它亮点
    论文的亮点包括:提出了一种新的攻击方法,可以揭示现有最强语言模型训练数据的分布情况;通过控制实验验证了该方法的有效性;应用该方法对几个最新的语言模型的分词器进行了分析,得出了一些新的结论。论文使用了多个数据集,并开源了代码。
  • 相关研究
    最近的相关研究包括:《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Scaling Laws for Neural Language Models》、《Language Models are Few-Shot Learners》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论