Yi: Open Foundation Models by 01.AI

2024年03月07日
  • 简介
    我们介绍了Yi模型系列,这是一系列具有强大多维能力的语言和多模型。Yi模型系列基于6B和34B预训练语言模型,然后我们将它们扩展到聊天模型、200K长的上下文模型、深度放大模型和视觉语言模型。我们的基础模型在MMLU等各种基准测试中表现出强大的性能,而我们微调的聊天模型在AlpacaEval和Chatbot Arena等主要评估平台上表现出强大的人类偏好率。通过我们可扩展的超级计算基础设施和经典的Transformer架构,我们将Yi模型的性能主要归因于我们的数据工程努力所带来的数据质量。对于预训练,我们使用级联数据去重和质量过滤管道构建了31万亿个英语和中文语料库。对于微调,我们通过多次迭代来完善小规模(不到10K)的指令数据集,以便每个实例都直接由我们的机器学习工程师进行验证。对于视觉语言,我们将聊天语言模型与视觉Transformer编码器相结合,并训练模型将视觉表示与语言模型的语义空间对齐。我们通过轻量级的持续预训练将上下文长度扩展到200K,并展示了强大的针对大规模数据的检索性能。我们展示了通过持续预训练扩展预训练检查点的深度可以进一步提高性能。我们相信,鉴于我们目前的结果,继续使用彻底优化的数据来扩大模型参数规模将会带来更强大的前沿模型。
  • 图表
  • 解决问题
    本论文旨在介绍Yi模型家族,这是一系列具有强大的多维能力的语言和多模型。论文试图解决的问题是如何构建一个具有良好数据质量的可扩展超级计算基础架构,并利用经典的transformer架构来实现强大的性能。
  • 关键思路
    论文的关键思路是通过优化数据工程来提高模型的性能。论文中提出的Yi模型家族基于6B和34B预训练语言模型,然后扩展到聊天模型、200K长上下文模型、深度升级模型和视觉语言模型。论文通过级联数据去重和质量过滤流程构建了31万亿个英语和中文语料库来进行预训练,同时通过多次迭代来优化小规模指令数据集的微调。
  • 其它亮点
    论文的亮点包括:构建了一个具有良好数据质量的可扩展超级计算基础架构;通过级联数据去重和质量过滤流程构建了31万亿个英语和中文语料库来进行预训练;通过多次迭代来优化小规模指令数据集的微调;构建了聊天模型、200K长上下文模型、深度升级模型和视觉语言模型等多种模型;通过轻量级的持续预训练将上下文长度扩展到200K,并展示了强大的针对大规模数据集的检索性能。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,包括:GPT、BERT、T5等预训练语言模型;ViLBERT、LXMERT等视觉语言模型;以及各种聊天机器人模型,如DialoGPT、Meena等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论