COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning

2024年03月26日
  • 简介
    近年来,大型语言模型(LLMs)取得了显著进展,特别是针对英语语言的。这些进展使得这些LLMs能够以前所未有的准确度和流畅度理解和执行复杂的指令。然而,尽管取得了这些进展,中文指令调优的发展仍存在明显的差距。中文语言的独特语言特征和文化深度为指令调优任务带来了挑战。现有的数据集要么来自以英语为中心的LLMs,要么不适合与真实世界中文用户的交互模式相匹配。为了弥合这一差距,我们介绍了COIG-CQIA,一个高质量的中文指令调优数据集。我们的目标是构建一个多样化、广泛的指令调优数据集,以更好地将模型行为与人类交互相匹配。为此,我们从中文互联网的各个来源,包括问答社区、维基、考试和现有的NLP数据集,收集了一个高质量的人工编写语料库。这个语料库经过严格的过滤和精心的处理,形成了COIG-CQIA数据集。此外,我们在CQIA的不同子集上训练了各种规模的模型,进行了深入的评估和分析。我们的实验结果提供了有价值的见解,可用于选择和开发中文指令调优数据集。我们还发现,在CQIA-Subset上训练的模型在人类评估以及知识和安全基准测试方面取得了竞争性的结果。数据可在https://huggingface.co/datasets/m-a-p/COIG-CQIA获得。
  • 图表
  • 解决问题
    解决问题:本论文旨在填补中文指令调整数据集的空白,提出了一个高质量的中文指令调整数据集COIG-CQIA,以更好地使模型行为与人类交互模式相一致。
  • 关键思路
    关键思路:通过从多个来源收集高质量的中文指令数据,经过过滤和处理后形成COIG-CQIA数据集,该数据集在不同规模的模型上进行训练和评估,并取得了良好的成果。
  • 其它亮点
    其他亮点:本论文提供了一个高质量的中文指令调整数据集COIG-CQIA,模型在该数据集上的表现优异,同时还提供了有价值的实验结果和分析,为选择和开发中文指令调整数据集提供了有益的见解。
  • 相关研究
    相关研究:最近的相关研究包括:1.《中文自然语言处理中的数据增强技术综述》;2.《中文自然语言处理中的深度学习方法综述》;3.《基于深度学习的中文指令调整研究》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论