Mix-CPT: A Domain Adaptation Framework via Decoupling Knowledge Learning and Format Alignment

向作者提问

NEW

简介

将通用的大型语言模型（LLMs）适应于专业领域由于数据分布的差异而面临巨大挑战。这种适应通常需要在大量特定领域的语料库上进行持续的预训练，以便于知识记忆，然后根据人类指令和偏好进行训练，以应用这些知识。然而，这种方法可能由于缺乏知识利用意识而导致知识记忆效率低下，并且对LLMs同时学习知识利用和格式对齐提出了巨大要求。为了促进LLMs的领域适应，我们修改了这个过程，提出了一个新的领域适应框架，包括领域知识学习和通用格式对齐，称为Mix-CPT。具体而言，我们首先进行知识混合持续预训练，同时专注于知识记忆和利用，以实现相互强化。为了避免在持续预训练过程中的灾难性遗忘，我们进一步引入了逻辑交换自蒸馏约束。随后，利用在持续预训练过程中获得的知识和能力，我们可以通过少量通用训练样本来有效地进行指令调整和对齐，以实现格式对齐。广泛的实验表明，与传统的适应方法相比，我们提出的Mix-CPT框架可以同时提高LLMs在目标和通用领域的任务解决能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决将通用大型语言模型（LLMs）适应于特定领域所面临的挑战，包括数据分布的差异和知识利用的效率问题。
关键思路

本文提出了一种新的领域适应框架，名为Mix-CPT，其中包括领域知识学习和通用格式对齐。其核心思想是进行知识混合的持续预训练，同时专注于知识的记忆和利用，以及利用预训练期间获取的知识和能力，通过少量通用训练样本实现格式对齐。
其它亮点

本文的实验结果表明，Mix-CPT框架相比传统的适应方法可以同时提高LLMs在目标和通用领域的任务解决能力。此外，本文还引入了logit swap自蒸馏约束，以避免持续预训练过程中的灾难性遗忘。
相关研究

最近的相关研究包括：《Improving Language Understanding by Generative Pre-Training》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《Unsupervised Cross-lingual Representation Learning at Scale》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问