360Zhinao Technical Report

2024年05月22日
  • 简介
    我们提出了参数规模为7B的360智能模型,并提供了覆盖4K、32K和360K的上下文长度,所有模型均可在https://github.com/Qihoo360/360zhinao上获取。为了快速进行预训练开发,我们建立了一个稳定而敏感的消融环境,以评估和比较实验运行,同时尽量减小模型大小。在这种指导下,我们完善了数据清洗和组合策略,对3.4T个标记进行了$\texttt{360Zhinao-7B-Base}$的预训练。我们还主要强调了数据在对齐过程中的作用,努力通过过滤和重新格式化来平衡数量和质量。通过量身定制的数据,360Zhinao-7B的上下文窗口很容易扩展到32K和360K。使用SFT进行训练的RMs和RLHF,可在特定任务中可靠应用。所有这些贡献共同导致了360Zhinao-7B在类似规模的模型中表现出竞争力。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在提出一种新的预训练模型——360Zhinao-7B,解决大规模自然语言处理任务的问题。
  • 关键思路
    360Zhinao-7B是一个参数量达到7B的预训练模型,其上下文长度可达4K、32K和360K,通过数据清洗和组合策略,以及数据对齐等方面的优化,使其在特定任务上表现出色。
  • 其它亮点
    本文在数据清洗和组合策略、数据对齐等方面做了优化,同时提出了一种新的预训练模型,实验表现优异。作者在Github上公开了代码。
  • 相关研究
    最近的相关研究包括GPT-3、Turing-NLG等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问