Technical Report: Competition Solution For BetterMixture

简介

在大规模模型繁荣的时代，从广阔而复杂的数据海洋中选择和优化数据集，以增强大语言模型的性能并在有限的计算资源约束下进行优化，已成为一项重要挑战。本文详细介绍了我们在BetterMixture挑战中的解决方案，该挑战专注于大语言模型的微调数据混合。我们的方法获得了第三名，包括数据去重、低级和高级质量过滤以及多样性选择。我们解决方案的基础是Ke-Data-Juicer，它是Data-Juicer的扩展，展示了它在处理和优化大语言模型数据方面的强大能力。
图表
解决问题

优化大型语言模型的数据集选择和混合，以提高性能和满足计算资源限制。
关键思路

使用数据去重、质量过滤和多样性选择等方法，通过Ke-Data-Juicer工具进行数据优化，以解决BetterMixture挑战中的数据混合问题。
其它亮点

论文通过实验验证了所提出方法的有效性，并且开源了Ke-Data-Juicer工具，为大型语言模型的数据优化提供了一种可行的解决方案。
相关研究

最近的相关研究包括：《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《On the Variance of the Adaptive Learning Rate and Beyond》等。