TED: Accelerate Model Training by Internal Generalization

简介

大型语言模型近年来表现出了强大的性能，但是高昂的训练成本需要有效的方法来压缩数据集的大小。我们提出了TED剪枝方法，该方法通过量化模型在拟合保留数据的同时改善剪枝数据性能的能力，即内部泛化（IG），来解决高剪枝比例下过拟合的挑战。TED使用基于内部泛化距离（IGD）的优化目标，测量剪枝前后IG的变化，以实现与真实泛化性能的对齐并实现隐式正则化。IGD优化目标已被验证允许模型实现对泛化误差上界的最小化。通过掩码和泰勒近似研究了小掩码波动对IG的影响，并实现了IGD的快速估计。在分析连续训练动态时，验证了IGD的先前效果，并提出了渐进剪枝策略。在图像分类、自然语言理解和大型语言模型微调的实验中，TED在保留60-70％的数据的情况下实现了无损性能。在接受后，我们的代码将公开发布。

图表

解决问题

提出TED pruning方法来压缩数据集大小，解决高成本训练的问题。

关键思路

通过量化模型在修剪数据上提高性能的能力，来解决高修剪比下过拟合的问题。使用基于内部泛化距离的优化目标来衡量IG变化，实现隐式正则化。

其它亮点

实验结果表明TED pruning可以在保证性能的情况下压缩60-70%的数据。代码将公开。

TED: Accelerate Model Training by Internal Generalization

评论