Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

2024年04月05日
  • 简介
    本研究介绍了CT-LLM,这是一个2B大型语言模型(LLM),展示了在开发LLM时优先考虑中文语言的重要转变。CT-LLM独特的起点是从零开始,与传统方法不同,主要包括中文文本数据,利用了包括8000亿中文标记、3000亿英文标记和1000亿代码标记在内的广泛语料库。这种战略性的组合使得该模型在理解和处理中文方面具有出色的能力,并通过对齐技术进一步增强了这种能力。在CHC-Bench上展示出卓越的性能,CT-LLM在中文语言任务方面表现出色,并通过SFT展示了其在英语方面的熟练程度。本研究挑战了主要在英语语料库上训练LLM,然后将其适应于其他语言的主流范式,拓宽了LLM训练方法的视野。通过公开完整的中文LLM训练过程,包括详细的数据处理程序,获得的大规模适当的中文预训练语料库(MAP-CC),精心选择的跨学科中文难例基准(CHC-Bench)和2B大小的中文微型LLM(CT-LLM),我们旨在促进学术界和产业界的进一步探索和创新,为更具包容性和多功能性的语言模型铺平道路。
  • 作者讲解·1
  • 图表
  • 解决问题
    该论文旨在介绍CT-LLM,一个2B大型语言模型,强调将中文语言作为开发LLM的重点。该论文的新颖之处在于,CT-LLM主要采用中文文本数据,包括1200亿个标记,其中包括800亿个中文标记,300亿个英文标记和100亿个代码标记。
  • 关键思路
    该论文的关键思路是通过主要采用中文文本数据,使得该模型在理解和处理中文方面具有出色的能力,从而挑战了在英语语料库上训练LLMs并将其适应于其他语言的传统方法。
  • 其它亮点
    该论文通过公开整个训练过程,包括详细的数据处理过程,获得的大规模适当预训练中文语料库(MAP-CC),以及一个精心选择的多学科中文难例基准(CHC-Bench)和2B大小的中文微型LLM(CT-LLM),旨在促进学术界和工业界的进一步探索和创新,为更具包容性和多功能的语言模型铺平道路。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如《ERNIE-Gram: Pre-Training with Explicitly N-Gram Masking for Chinese Language Understanding and Generation》和《Unified Language Model Pre-training for Natural Language Understanding and Generation》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问