- 简介我们介绍了phi-3-mini,这是一个拥有38亿个参数的语言模型,训练数据包括33万亿个标记。该模型的整体性能通过学术基准和内部测试进行了测量,与Mixtral 8x7B和GPT-3.5等模型相媲美(例如,phi-3-mini在MMLU上达到了69%,在MT-bench上达到了8.38),尽管足够小,可以部署在手机上。创新完全在于我们用于训练的数据集,这是phi-2使用的数据集的扩展版本,由经过严格筛选的网络数据和合成数据组成。该模型还进一步针对鲁棒性、安全性和聊天格式进行了对齐。我们还提供了一些初始的参数缩放结果,使用了4.8T标记进行了7B和14B模型的训练,称为phi-3-small和phi-3-medium,它们比phi-3-mini更加强大(例如,在MMLU上分别为75%和78%,在MT-bench上分别为8.7和8.9)。
- 图表
- 解决问题本论文旨在介绍 phi-3-mini,一个在3.3万亿标记上训练的语言模型,其性能与Mixtral 8x7B和GPT-3.5等模型相当,但规模足够小以在手机上部署。主要解决的问题是如何训练一个小型但高性能的语言模型。
- 关键思路该论文的关键思路是使用一个经过过滤的网络数据和合成数据的扩展数据集来训练模型,并进一步针对鲁棒性、安全性和聊天格式进行了调整。
- 其它亮点该论文提供了一个小型但高性能的语言模型 phi-3-mini,并提供了两个更大的模型 phi-3-small 和 phi-3-medium,它们都比 phi-3-mini 更强大。实验设计了多个学术基准测试和内部测试,证明了模型的性能。此外,论文还提供了一些初步的参数缩放结果。
- 在这个领域中,最近的相关研究包括 GPT-3 和 Mixtral 8x。
沙发等你来抢
去评论
评论
沙发等你来抢