IGOT: Information Gain Optimized Tokenizer on Domain Adaptive Pretraining

2024年05月16日
  • 简介
    预训练的大型语言模型(LLM),如ChatGPT、Claude等,在自然语言生成的各个领域展示了强大的能力。然而,在专业领域特定领域中使用LLM仍然存在许多问题。在使用生成式人工智能处理下游任务时,常见的方法是通过持续训练或微调向预训练模型添加新知识(例如私有领域知识、尖端信息)。然而,是否存在通用的域适应训练范式仍然是一个开放性问题。在本文中,我们提出了信息增益优化的分词器(IGOT),该分词器分析下游任务的特殊标记集,使用启发式函数$\phi$和特殊标记及其信息增益构建新的子集,以构建新的领域特定分词器,并继续在下游任务数据上进行预训练。我们探讨了这种方法的定制分词器对领域自适应预训练的许多积极影响,并验证了这种方法可以比仅收集数据和微调的普通方法表现更好。基于我们的实验,IGOT与LLaMA-7B的持续预训练过程实现了11.9%的标记节省、12.2%的训练时间节省和5.8%的最大GPU VRAM使用节省,结合T5模型,我们甚至可以达到31.5%的训练时间节省,使将通用生成式人工智能移植到特定领域比以前更加有效。在特定领域任务中,监督的$IGOT_\tau$在保持预训练期间减少收敛半径和收敛点方面表现出很好的性能。
  • 图表
  • 解决问题
    如何在特定领域中使用预训练的大型语言模型(LLM)进行下游任务处理?本文提出一种信息增益优化标记器(IGOT)的方法,通过构建特殊标记集的子集来建立新的领域特定标记器,从而实现更好的领域自适应预训练。
  • 关键思路
    IGOT方法分析下游任务的特殊标记集,利用启发式函数构建新的子集,并在下游任务数据上继续预训练,以定制化的标记器提高领域适应性。
  • 其它亮点
    IGOT方法在领域自适应预训练中取得了很好的效果,比普通的数据收集和微调方法更有效。实验结果表明,IGOT方法可以实现11.9%的标记符号节省,12.2%的训练时间节省和5.8%的最大GPU VRAM使用节省。此外,IGOT方法还可以降低收敛半径和收敛点,从而提高性能。
  • 相关研究
    最近在领域自适应预训练方面的研究包括:《Unsupervised Domain Adaptation for Semantic Segmentation via Class-Balanced Self-Training》、《Domain Adaptive Faster R-CNN for Object Detection in the Wild》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论