Mix-CPT: A Domain Adaptation Framework via Decoupling Knowledge Learning and Format Alignment

2024年07月15日
  • 简介
    将通用的大型语言模型(LLMs)适应于专业领域由于数据分布的差异而面临巨大挑战。这种适应通常需要在大量特定领域的语料库上进行持续的预训练,以便于知识记忆,然后根据人类指令和偏好进行训练,以应用这些知识。然而,这种方法可能由于缺乏知识利用意识而导致知识记忆效率低下,并且对LLMs同时学习知识利用和格式对齐提出了巨大要求。为了促进LLMs的领域适应,我们修改了这个过程,提出了一个新的领域适应框架,包括领域知识学习和通用格式对齐,称为Mix-CPT。具体而言,我们首先进行知识混合持续预训练,同时专注于知识记忆和利用,以实现相互强化。为了避免在持续预训练过程中的灾难性遗忘,我们进一步引入了逻辑交换自蒸馏约束。随后,利用在持续预训练过程中获得的知识和能力,我们可以通过少量通用训练样本来有效地进行指令调整和对齐,以实现格式对齐。广泛的实验表明,与传统的适应方法相比,我们提出的Mix-CPT框架可以同时提高LLMs在目标和通用领域的任务解决能力。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决将通用大型语言模型(LLMs)适应于特定领域所面临的挑战,包括数据分布的差异和知识利用的效率问题。
  • 关键思路
    本文提出了一种新的领域适应框架,名为Mix-CPT,其中包括领域知识学习和通用格式对齐。其核心思想是进行知识混合的持续预训练,同时专注于知识的记忆和利用,以及利用预训练期间获取的知识和能力,通过少量通用训练样本实现格式对齐。
  • 其它亮点
    本文的实验结果表明,Mix-CPT框架相比传统的适应方法可以同时提高LLMs在目标和通用领域的任务解决能力。此外,本文还引入了logit swap自蒸馏约束,以避免持续预训练过程中的灾难性遗忘。
  • 相关研究
    最近的相关研究包括:《Improving Language Understanding by Generative Pre-Training》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《Unsupervised Cross-lingual Representation Learning at Scale》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问