复旦大学 MOSS 大模型今日开源：超 100 万条对话训练数据

复旦大学自然语言处理实验室开发的新版 MOSS 模型今日正式上线，成为国内首个插件增强的开源对话语言模型。4月21日，MOSS 模型已上线开源，相关代码、数据、模型参数已在 Github 和 Hugging Face 等平台开放。

MOSS 与 ChatGPT 相比，有哪些主要差异？复旦大学计算机科学技术学院邱锡鹏团队表示，最大差异还是参数规模。ChatGPT 的参数量多达 1750 亿个，而 MOSS 的参数量比其小一个数量级，大约是前者的 1/10 左右。

我们选择百亿规模这样级别的参数，是因为学术界主要是做一些探索性的技术，这个规模也在财力物力承受范围之内。我们认为在这个参数级别上，这些模型也能涌现出一定的智能能力，我们也能赋予它们对话的能力。实验结果证实了我们的猜想，MOSS 模型可以非常顺利地与人类进行聊天互动。

MOSS 可执行对话生成、编程、事实问答等一系列任务，打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径，将于后期进行开源。

MOSS 官网地址：https://moss.fastnlp.top/

MOSS 博客主页：https://txsun1997.github.io/blogs/moss.html

moss-moon-003-base: MOSS-003基座模型，在高质量中英文语料上自监督预训练得到，预训练语料包含约700B单词，计算量约6.67x10²²次浮点数运算。
moss-moon-003-sft: 基座模型在约110万多轮对话数据上微调得到，具有指令遵循能力、多轮对话能力、规避有害请求能力。
moss-moon-003-sft-plugin: 基座模型在约110万多轮对话数据和约30万插件增强的多轮对话数据上微调得到，在moss-moon-003-sft基础上还具备使用搜索引擎、文生图、计算器、解方程等四种插件的能力。
moss-moon-003-pm: 在基于moss-moon-003-sft收集到的偏好反馈数据上训练得到的偏好模型，将在近期开源。
moss-moon-003: 在moss-moon-003-sft基础上经过偏好模型moss-moon-003-pm训练得到的最终模型，具备更好的事实性和安全性以及更稳定的回复质量，将在近期开源。
moss-moon-003-plugin: 在moss-moon-003-sft-plugin基础上经过偏好模型moss-moon-003-pm训练得到的最终模型，具备更强的意图理解能力和插件使用能力，将在近期开源。

moss-002-sft-data: MOSS-002所使用的多轮对话数据，覆盖有用性、忠实性、无害性三个层面，包含由text-davinci-003生成的约57万条英文对话和59万条中文对话。
moss-003-sft-data: moss-moon-003-sft所使用的多轮对话数据，基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo构造而成，相比moss-002-sft-data，moss-003-sft-data更加符合真实用户意图分布，包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数，约含110万条对话数据。目前仅开源少量示例数据，完整数据将在近期开源。
moss-003-sft-plugin-data: moss-moon-003-sft-plugin所使用的插件增强的多轮对话数据，包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约30万条多轮对话数据。目前仅开源少量示例数据，完整数据将在近期开源。
moss-003-pm-data: moss-moon-003-pm所使用的偏好数据，包含在约18万额外对话上下文数据及使用moss-moon-003-sft所产生的回复数据上构造得到的偏好对比数据，将在近期开源。