🔛智源社区日报关注订阅🔛

 

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。

自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料。

GitHub: https://github.com/HqWu-HITCS/Awesome-Chinese-LLM 

目录

1. Model

  • ChatGLM:

    • 地址:https://github.com/THUDM/ChatGLM-6B
    • 简介:中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持
  • VisualGLM-6B

    • 地址:https://github.com/THUDM/VisualGLM-6B
    • 简介:一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练。
  • Chinese-LLaMA-Alpaca:

  • OpenChineseLLaMA:

    • 地址:https://github.com/OpenLMLab/OpenChineseLLaMA
    • 简介:基于 LLaMA-7B 经过中文数据集增量预训练产生的中文大语言模型基座,对比原版 LLaMA,该模型在中文理解能力和生成能力方面均获得较大提升,在众多下游任务中均取得了突出的成绩。
  • BELLE:

    • 地址:https://github.com/LianjiaTech/BELLE
    • 简介:开源了基于BLOOMZ和LLaMA优化后的一系列模型,同时包括训练数据、相关模型、训练代码、应用场景等,也会持续评估不同训练数据、训练算法等对模型表现的影响。
  • Panda:

    • 地址:https://github.com/dandelionsllm/pandallm
    • 简介:开源了基于LLaMA-7B, -13B, -33B, -65B 进行中文领域上的持续预训练的语言模型, 使用了接近 15M 条数据进行二次预训练。
  • Ziya-LLaMA-13B:

    • 地址:https://huggingface.co/IDEA-CCNL/Ziya-LLaMA-13B-v1
    • 简介:该项目开源了姜子牙通用大模型V1,是基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。该模型已完成大规模预训练、多任务有监督微调和人类反馈学习三阶段的训练过程。
  • BiLLa:

    • 地址:https://github.com/Neutralzz/BiLLa
    • 简介:该项目开源了推理能力增强的中英双语LLaMA模型。模型的主要特性有:较大提升LLaMA的中文理解能力,并尽可能减少对原始LLaMA英文能力的损伤;训练过程增加较多的任务型数据,利用ChatGPT生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。
  • Moss:

    • 地址:https://github.com/OpenLMLab/MOSS
    • 简介:支持中英双语和多种插件的开源对话语言模型,MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。
  • Luotuo-Chinese-LLM:

    • 地址:https://github.com/LC1332/Luotuo-Chinese-LLM
    • 简介:囊括了一系列中文大语言模型开源项目,包含了一系列基于已有开源模型(ChatGLM, MOSS, LLaMA)进行二次微调的语言模型,指令微调数据集等。
  • Linly:

    • 地址:https://github.com/CVI-SZU/Linly
    • 简介:提供中文对话模型 Linly-ChatFlow 、中文基础模型 Linly-Chinese-LLaMA 及其训练数据。 中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。
  • ChatYuan

    • 地址:https://github.com/clue-ai/ChatYuan
    • 简介:元语智能发布的一系列支持中英双语的功能型对话语言大模型,在微调数据、人类反馈强化学习、思维链等方面进行了优化。
  • ChatRWKV:

    • 地址:https://huggingface.co/BlinkDL/rwkv-4-raven
    • 简介:基于RWKV架构的Chat模型(包括英文和中文),发布了包括Raven,Novel-ChnEng,Novel-Ch与Novel-ChnEng-ChnPro等模型,可以直接闲聊及进行诗歌,小说等创作,包括7B和14B等规模的模型。
  • CPM-Bee

    • 地址:https://github.com/OpenBMB/CPM-Bee
    • 简介:一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。
  • TigerBot

    • 地址:https://github.com/TigerResearch/TigerBot
    • 简介:一个多语言多任务的大规模语言模型(LLM),开源了包括模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B,基本训练和推理代码,100G预训练数据,涵盖金融、法律、百科的领域数据以及API等。
  • 书生·浦语

    • 地址:https://github.com/InternLM/InternLM-techreport
    • 简介:商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。据悉,“书生·浦语”具有1040亿参数,基于“包含1.6万亿token的多语种高质量数据集”训练而成。
  • Aquila

    • 地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
    • 简介:由智源研究院发布,Aquila语言大模型在技术上继承了GPT-3、LLaMA等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer,升级了BMTrain并行训练方法,是在中英文高质量语料基础上从0开始训练的,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。也是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型。
  • baichuan-7B

    • 地址:https://github.com/baichuan-inc/baichuan-7B
    • 简介:由百川智能开发的一个开源可商用的大规模预训练语言模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。

2. Application

2.1 垂直领域微调

医疗
  • DoctorGLM:

  • BenTsao:

    • 地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
    • 简介:开源了经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。
  • BianQue:

    • 地址:https://github.com/scutcyr/BianQue
    • 简介:一个经过指令与多轮问询对话联合微调的医疗对话大模型,基于ClueAI/ChatYuan-large-v2作为底座,使用中文医疗问答指令与多轮问询对话混合数据集进行微调。
  • HuatuoGPT:

  • Med-ChatGLM:

  • QiZhenGPT:

    • 地址:https://github.com/CMKRG/QiZhenGPT
    • 简介:该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在LLaMA-7B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。
  • ChatMed:

    • 地址:https://github.com/michael-wzhu/ChatMed
    • 简介:该项目推出ChatMed系列中文医疗大规模语言模型,模型主干为LlaMA-7b并采用LoRA微调,具体包括ChatMed-Consult : 基于中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集;ChatMed-TCM : 基于中医药指令数据集ChatMed_TCM_Dataset,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法(entity-centric self-instruct),调用ChatGPT得到2.6w+的围绕中医药的指令数据训练得到。
  • XrayGLM,首个会看胸部X光片的中文多模态医学大模型:

    • 地址:https://github.com/WangRongsheng/XrayGLM
    • 简介:该项目为促进中文领域医学多模态大模型的研究发展,发布了XrayGLM数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。
法律
  • LaWGPT:基于中文法律知识的大语言模型

    • 地址:https://github.com/pengxiao-song/LaWGPT
    • 简介:该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。
  • LexiLaw:中文法律大模型

    • 地址:https://github.com/CSHaitao/LexiLaw
    • 简介:LexiLaw 是一个基于 ChatGLM-6B微调的中文法律大模型,通过在法律领域的数据集上进行微调。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务,包括具体法律问题的咨询,还是对法律条款、案例解析、法规解读等方面的查询。
  • Lawyer LLaMA:中文法律LLaMA

    • 地址:https://github.com/AndrewZhe/lawyer-llama
    • 简介:开源了一系列法律领域的指令微调数据和基于LLaMA训练的中文法律大模型的参数。Lawyer LLaMA 首先在大规模法律语料上进行了continual pretraining。在此基础上,借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。
金融
  • Cornucopia(聚宝盆):基于中文金融知识的LLaMA微调模型

    • 地址:https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese
    • 简介:开源了经过中文金融知识指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过中文金融公开数据+爬取的金融数据构建指令数据集,并在此基础上对LLaMA进行了指令微调,提高了 LLaMA 在金融领域的问答效果。基于相同的数据,后期还会利用GPT3.5 API构建高质量的数据集,另在中文知识图谱-金融上进一步扩充高质量的指令数据集。
  • BBT-FinCUGE-Applications

  • XuanYuan(轩辕):首个千亿级中文金融对话模型

    • 地址:https://huggingface.co/xyz-nlp/XuanYuan2.0
    • 简介:轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
教育
  • 桃李(Taoli):
    • 地址:https://github.com/blcuicall/taoli
    • 简介:一个在国际中文教育领域数据上进行了额外训练的模型。项目基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库,构造了共计 88000 条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将知识应用到具体场景中的能力。
数学
  • chatglm-maths:
    • 地址:https://github.com/yongzhuo/chatglm-maths
    • 简介:基于chatglm-6b微调/LORA/PPO/推理的数学题解题大模型, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu部署,开源了训练数据集等。
文化
  • Firefly:
    • 地址:https://github.com/yangjianxin1/Firefly
    • 简介:中文对话式大语言模型,构造了许多与中华文化相关的数据,以提升模型这方面的表现,如对联、作诗、文言文翻译、散文、金庸小说等。

2.2 LangChain应用

2.3 外部挂件应用

  • wenda:

    • 地址:https://github.com/wenda-LLM/wenda
    • 简介:一个LLM调用平台。为小模型外挂知识库查找和设计自动执行动作,实现不亚于于大模型的生成能力。
  • JittorLLMs:

    • 地址:https://github.com/Jittor/JittorLLMs
    • 简介:计图大模型推理库:笔记本没有显卡也能跑大模型,具有成本低,支持广,可移植,速度快等优势。
  • WebCPM

  • GPT Academic:

    • 地址:https://github.com/binary-husky/gpt_academic
    • 简介:为GPT/GLM提供图形交互界面,特别优化论文阅读润色体验,支持并行问询多种LLM模型,支持清华chatglm等本地模型。兼容复旦MOSS, llama, rwkv, 盘古等。
  • ChatALL:

    • 地址:https://github.com/sunner/ChatALL
    • 简介:ChatALL(中文名:齐叨)可以把一条指令同时发给多个 AI,可以帮助用户发现最好的回答。

3. Dataset

  • RefGPT:基于RefGPT生成大量真实和定制的对话数据集

    • 地址:https://github.com/ziliwangnlp/RefGPT
    • 数据集说明:包括RefGPT-Fact和RefGPT-Code两部分,其中RefGPT-Fact给出了5万中文的关于事实性知识的多轮对话,RefGPT-Code给出了3.9万中文编程相关的多轮对话数据。
  • COIG

    • 地址:https://huggingface.co/datasets/BAAI/COIG
    • 数据集说明:维护了一套无害、有用且多样化的中文指令语料库,包括一个人工验证翻译的通用指令语料库、一个人工标注的考试指令语料库、一个人类价值对齐指令语料库、一个多轮反事实修正聊天语料库和一个 leetcode 指令语料库。
  • generated_chat_0.4M:

  • alpaca_chinese_dataset:

  • Alpaca-CoT:

    • 地址:https://github.com/PhoebusSi/Alpaca-CoT
    • 数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充)、多种训练效率方法(如lora,p-tuning)以及多种LLMs,三个层面上的接口,打造方便研究人员上手的LLM-IFT研究平台。
  • pCLUE:

    • 地址:https://github.com/CLUEbenchmark/pCLUE
    • 数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括120万训练数据,73个Prompt,9个任务。
  • firefly-train-1.1M:

  • BELLE-data-1.5M:

  • Chinese Scientific Literature Dataset:

    • 地址:https://github.com/ydli-ai/csl
    • 数据集说明:中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)以及简单的prompt
  • Chinese medical dialogue data:

    • 地址:https://github.com/Toyhom/Chinese-medical-dialogue-data
    • 数据集说明:中文医疗对话数据集,包括:<andriatria_男科> 94596个问答对 <im_内科> 220606个问答对 <oagd_妇产科> 183751个问答对 <oncology_肿瘤科> 75553个问答对 <pediatric_儿科> 101602个问答对 <surgical_外科> 115991个问答对 总计 792099个问答对。</surgical_外科></pediatric_儿科></oncology_肿瘤科></oagd_妇产科></im_内科></andriatria_男科>
  • Huatuo-26M:

    • 地址:https://github.com/FreedomIntelligence/Huatuo-26M
    • 数据集说明:Huatuo-26M 是一个中文医疗问答数据集,此数据集包含了超过2600万个高质量的医疗问答对,涵盖了各种疾病、症状、治疗方式、药品信息等多个方面。Huatuo-26M 是研究人员、开发者和企业为了提高医疗领域的人工智能应用,如聊天机器人、智能诊断系统等需要的重要资源。

4. Evaluation

  • FlagEval (天秤)大模型评测体系及开放平台

    • 地址:https://flageval.baai.ac.cn/#/home
    • 简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval (天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。
  • C-Eval: 构造中文大模型的知识评估基准:

    • 地址:https://yaofu.notion.site/C-Eval-6b79edd91b454e3d8ea41c59ea2af873
    • 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代 …),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。
  • SuperCLUElyb: SuperCLUE琅琊榜

    • 地址:https://github.com/CLUEbenchmark/SuperCLUElyb
    • 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。
  • GAOKAO-Bench:

    • 地址:https://github.com/OpenLMLab/GAOKAO-Bench
    • 简介:GAOKAO-bench是一个以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架,收集了2010-2022年全国高考卷的题目,其中包括1781道客观题和1030道主观题,构建起GAOKAO-bench的数据部分。
  • AGIEval:

    • 地址:https://github.com/microsoft/AGIEval
    • 简介:由微软发布的一项新型基准测试,这项基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国 SAT 考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。
  • Xiezhi:

    • 地址:https://github.com/mikegu721/xiezhibenchmark
    • 简介:由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估Benchmark,包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类,24万道学科题目,516个具体学科,249587道题目。
  • Open LLM Leaderboard:

  • chinese-llm-benchmark:

    • 地址:https://github.com/jeinlee1991/chinese-llm-benchmark
    • 简介:中文大模型能力评测榜单:覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b 等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
  • Safety-Prompts:

    • 地址:https://github.com/thu-coai/Safety-Prompts
    • 简介:由清华大学提出的一个关于LLM安全评测benchmark,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的prompt。
  • PromptCBLUE: 中文医疗场景的LLM评测基准

    • 地址:https://github.com/michael-wzhu/PromptCBLUE
    • 简介:为推动LLM在医疗领域的发展和落地,由华东师范大学联合阿里巴巴天池平台,复旦大学附属华山医院,东北大学,哈尔滨工业大学(深圳),鹏城实验室与同济大学推出PromptCBLUE评测基准, 将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的LLM评测基准。

5. Tutorial

  • 面向开发者的 LLM 入门课程:

    • 地址:https://github.com/datawhalechina/prompt-engineering-for-developers
    • 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,主要包括:吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版,吴恩达《Building Systems with the ChatGPT API》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。
  • LangChain 🦜️🔗 中文网,跟着LangChain一起学LLM/GPT开发:

    • 地址:https://www.langchain.asia
    • 简介:Langchain的中文文档,由是两个在LLM创业者维护,希望帮助到从刚进入AI应用开发的朋友们。
  • LLMs九层妖塔:

  • HuggingLLM:

  • OpenAI Cookbook:

    • 地址:https://github.com/openai/openai-cookbook
    • 简介:该项目是OpenAI提供的使用OpenAI API的示例和指导,其中包括如何构建一个问答机器人等教程,能够为从业人员开发类似应用时带来指导。

6. Related Repository