Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier

2024年12月05日
  • 简介
    我们介绍了Aya Expanse模型家族,这是一代新的80亿和320亿参数的多语言语言模型,旨在解决开发高性能多语言模型的关键挑战,使其能力能够匹配或超越单语模型。通过利用Cohere For AI和Cohere多年来的研究成果,包括数据套利、多语言偏好训练和模型融合方面的进展,Aya Expanse在多语言性能方面树立了新的标杆。我们在Arena-Hard-Auto数据集上进行了评估,该数据集已翻译成23种语言,结果显示Aya Expanse 80亿和320亿参数模型在其各自的参数级别中,超越了包括Gemma 2、Qwen 2.5和Llama 3.1在内的领先开源模型,胜率高达76.6%。特别值得一提的是,Aya Expanse 320亿参数模型在参数量仅为Llama 3.1 700亿参数模型一半的情况下,仍能实现54.0%的胜率。在这篇简短的技术报告中,我们展示了Aya Expanse模型家族的扩展评估结果,并发布了其开源权重,同时发布了一个新的多语言评估数据集m-ArenaHard。
  • 图表
  • 解决问题
    论文试图解决多语言模型在性能上无法与单语种模型匹敌的问题,这是一个长期存在的挑战,但通过新的技术手段和方法,旨在开发出能够匹配或超越单语种模型能力的高度表现多语言模型。
  • 关键思路
    关键思路在于结合多年在Cohere For AI和Cohere的研究成果,特别是在数据仲裁、多语言偏好训练和模型合并方面的进步,推出了Aya Expanse模型家族。这些模型不仅参数量适中(8B和32B),而且在多个语言上的表现显著优于同等参数量的其他开放权重模型,甚至在某些情况下超过了参数量更大的模型。
  • 其它亮点
    论文展示了Aya Expanse模型在Arena-Hard-Auto数据集(翻译成23种语言)上的优越性能,特别是在8B和32B参数类中分别取得了76.6%和54.0%的胜率。此外,研究团队还发布了模型的开放权重和一个新的多语言评估数据集m-ArenaHard,为后续研究提供了宝贵资源。这些结果表明,通过精心设计的数据处理和模型训练策略,可以有效提升多语言模型的性能。
  • 相关研究
    近期在这个领域内的相关研究包括Gemma 2、Qwen 2.5和Llama 3.1等模型的开发。例如,《Gemma 2: A Scalable Multilingual Language Model》和《Qwen 2.5: Enhancing Multilingual Capabilities through Fine-Tuning》等论文都探讨了如何通过不同的技术手段提高多语言模型的性能。Aya Expanse的推出进一步推动了这一领域的进展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论