Nyonic Technical Report

2024年04月24日
  • 简介
    这份报告详细介绍了我们最新为定制大型语言模型设计的语言模型的发展和关键成就。引入的改进包括一种新颖的在线数据调度器,支持灵活的训练数据调整和课程学习。该模型的架构采用了最先进的技术,如旋转位置嵌入、QK-LayerNorm和特别设计的多语言分词器,以增强稳定性和性能。此外,我们强大的训练框架集成了先进的监控和快速恢复功能,以确保最佳效率。我们的Wonton 7B模型在多语言和英语基准测试中展现出了竞争力的表现。未来的发展将优先考虑缩小与更广泛训练的模型之间的性能差距,从而增强模型的实际效力和适应性。GitHub链接:\url{https://github.com/nyonicai/nyonic-public}。
  • 图表
  • 解决问题
    论文旨在开发一种定制大型语言模型,解决多语言处理和语言学习的问题。
  • 关键思路
    论文提出了一种新颖的在线数据调度器,支持灵活的训练数据调整和课程学习。模型架构采用了最先进的技术,如旋转位置嵌入、QK-LayerNorm以及特别设计的多语言分词器,以增强稳定性和性能。
  • 其它亮点
    论文的实验结果表明,在多语言和英语基准测试中,Wonton 7B模型表现出了竞争力。论文还开发了一个强大的训练框架,包括先进的监控和快速恢复功能,以确保最佳效率。论文的代码已经在Github上开源。
  • 相关研究
    最近的相关研究包括GPT-3、BERT、XLNet等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论