Diversity-driven Data Selection for Language Model Tuning through Sparse Autoencoder

2025年02月19日
  • 简介
    当前的预训练大型语言模型通常需要通过指令微调来与人类偏好对齐。然而,由于数据收集量庞大和模型迭代迅速,指令微调数据往往在数量上已经饱和,这使得核心集数据选择变得重要但尚未得到充分研究。另一方面,现有的以质量为导向的数据选择方法,如LIMA(NeurIPS 2023 (Zhou等人, 2024))和AlpaGasus(ICLR 2024 (Chen等人)),通常忽视了数据多样性和复杂性的重要性。 在这项工作中,我们旨在设计一种考虑多样性的数据选择策略,并创造性地提出使用稀疏自编码器来应对数据多样性度量的挑战。此外,稀疏自编码器还可以提供对模型行为的更多可解释性,例如解释选择最长回复的有效性(ICML 2024 (Zhao等人))这一令人惊讶的现象。 通过有效的数据选择,我们实验性地证明了在我们选择的数据上训练的模型在模型能力方面优于其他方法,同时可以降低训练成本,并可能对模型行为获得更多的控制。
  • 图表
  • 解决问题
    该论文试图解决现有指令调优数据在数量上饱和且质量驱动的数据选择方法忽视了数据多样性和复杂性的问题。这是一个相对新颖的问题,特别是在当前大规模语言模型快速迭代的背景下。
  • 关键思路
    关键思路是设计一种考虑数据多样性的选择策略,并提出使用稀疏自编码器来衡量数据多样性。此外,稀疏自编码器还可以提高模型行为的可解释性。相比现有的研究,这种方法不仅关注数据质量,还强调了多样性和复杂性的重要性。
  • 其它亮点
    论文通过实验验证了所选数据训练的模型在性能上的优越性,同时减少了训练成本并增强了对模型行为的控制。实验设计包括对比不同数据选择方法的效果,使用了多个标准数据集进行评估。论文提到开源代码和数据集,鼓励社区进一步研究,特别是关于如何更好地结合数据质量和多样性。
  • 相关研究
    最近的相关研究包括LIMA(NeurIPS 2023)和AlpaGasus(ICLR 2024),这些研究主要集中在提高数据选择的质量方面。其他相关工作还包括探讨最长响应选择有效性的研究(ICML 2024)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论