ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

2024年06月18日
  • 简介
    我们介绍了ChatGLM,这是我们随着时间不断发展的一系列大型语言模型。本文主要关注GLM-4语言系列,其中包括GLM-4、GLM-4-Air和GLM-4-9B。它们代表了我们最有能力的模型,这些模型是通过前三代ChatGLM所获得的所有见解和经验进行训练的。迄今为止,GLM-4模型已经在10万亿个标记中进行了预训练,其中大部分是中文和英文,还包括来自24种语言的少量语料库,并主要用于中英文使用。通过多阶段的后训练过程,包括有监督的微调和从人类反馈中学习,实现了高质量的对齐。评估结果显示,GLM-4在一般指标(如MMLU、GSM8K、MATH、BBH、GPQA和HumanEval)方面与GPT-4相媲美或表现更好,对于指令跟随(如IFEval)接近于GPT-4-Turbo,在长文本任务方面与GPT-4 Turbo(128K)和Claude 3相匹配,并且在中文对齐方面(如AlignBench)优于GPT-4。GLM-4 All Tools模型进一步对齐以理解用户意图,并自主决定何时以及使用哪些工具(包括Web浏览器、Python解释器、文本到图像模型和用户定义的函数),以有效地完成复杂任务。在实际应用中,它在访问在线信息(通过Web浏览)和使用Python解释器解决数学问题等任务方面与甚至超过GPT-4 All Tools。在此过程中,我们开源了一系列模型,包括ChatGLM-6B(三代)、GLM-4-9B(128K、1M)、GLM-4V-9B、WebGLM和CodeGeeX,仅在2023年一年就吸引了超过1000万次的下载。这些开源模型可以通过https://github.com/THUDM和https://huggingface.co/THUDM进行访问。
  • 图表
  • 解决问题
    本论文旨在介绍ChatGLM家族的GLM-4系列模型,这些模型是目前最先进的大型语言模型之一,主要解决了自然语言处理中的文本生成、问答等问题。
  • 关键思路
    论文中的关键思路是使用多语言语料库进行预训练,并通过多阶段的后训练过程来实现高质量的对齐,进而提高模型的性能。此外,GLM-4 All Tools模型还能够理解用户意图并自主决定使用哪种工具来完成任务。
  • 其它亮点
    论文使用了十万亿个标记的语料库进行预训练,并在多个任务上展现出与GPT-4相媲美的性能。GLM-4 All Tools模型在访问在线信息和使用Python解释器解决数学问题等任务中表现良好。此外,论文还开源了多个模型,并在Hugging Face上获得了超过1000万次下载。
  • 相关研究
    在最近的相关研究中,GPT-4和Claude 3等模型也取得了一定的进展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论