CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models

向作者提问

NEW

简介

大型语言模型（LLMs）在各种任务中表现出色，但由于受限于特定领域或专有语料库，通常在专业领域中表现不佳。持续预训练（CPT）通过在重放通用语料库的同时注入新的领域特定或专有知识来增强LLM的能力，以防止灾难性遗忘。然而，通用语料库和特定领域语料库的数据混合比例通常是根据经验选择的，导致实际中训练效率不佳。在这种情况下，我们尝试重新审视CPT下LLMs的缩放行为，并发现了损失、混合比例和训练令牌规模之间的幂律关系。我们形式化了通用和领域特定能力之间的权衡，导致了明确定义的通用和领域数据的关键混合比率（CMR）。通过平衡CMR，可以保持模型的通用能力并实现所需的领域转移，确保充分利用可用资源。因此，如果我们重视效率和效果之间的平衡，CMR可以被认为是最佳混合比率。通过广泛的实验，我们确定了CMR的可预测性，并提出了CMR的缩放定律，并证实了其泛化性。这些发现为优化专业领域中LLM的训练提供了实用的指导，确保在高效管理训练资源的同时实现通用和领域特定的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决LLMs在专业领域表现不佳的问题，通过Continual pre-training（CPT）来增强LLMs的领域特定知识，但目前数据混合比例的选择是启发式的，效率不高，因此需要找到一个最优的混合比例。
关键思路

论文提出了一种基于损失、混合比例和训练标记规模的幂律关系，以及一个明确定义的一般和领域特定数据的关键混合比例（CMR）来平衡一般和领域特定能力之间的权衡。通过平衡CMR，可以保持模型的一般能力并实现所需的领域转移，确保最大程度地利用可用资源。
其它亮点

论文通过实验验证了CMR的可预测性，并提出了CMR的缩放定律，并证实了其普适性。这些发现为优化专业领域的LLM训练提供了实用的指导，同时在有效管理培训资源的同时确保了一般和领域特定性能。
相关研究

近年来，还有一些相关的研究，如《The Power of Scale for Parameter-Efficient Prompt Tuning》、《Improving Continual Learning for Large Scale Language Modeling》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问