360Zhinao Technical Report

简介

我们提出了参数规模为7B的360智能模型，并提供了覆盖4K、32K和360K的上下文长度，所有模型均可在https://github.com/Qihoo360/360zhinao上获取。为了快速进行预训练开发，我们建立了一个稳定而敏感的消融环境，以评估和比较实验运行，同时尽量减小模型大小。在这种指导下，我们完善了数据清洗和组合策略，对3.4T个标记进行了$\texttt{360Zhinao-7B-Base}$的预训练。我们还主要强调了数据在对齐过程中的作用，努力通过过滤和重新格式化来平衡数量和质量。通过量身定制的数据，360Zhinao-7B的上下文窗口很容易扩展到32K和360K。使用SFT进行训练的RMs和RLHF，可在特定任务中可靠应用。所有这些贡献共同导致了360Zhinao-7B在类似规模的模型中表现出竞争力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提出一种新的预训练模型——360Zhinao-7B，解决大规模自然语言处理任务的问题。
关键思路

360Zhinao-7B是一个参数量达到7B的预训练模型，其上下文长度可达4K、32K和360K，通过数据清洗和组合策略，以及数据对齐等方面的优化，使其在特定任务上表现出色。
其它亮点

本文在数据清洗和组合策略、数据对齐等方面做了优化，同时提出了一种新的预训练模型，实验表现优异。作者在Github上公开了代码。
相关研究

最近的相关研究包括GPT-3、Turing-NLG等。

提问交流

提问交流