Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

2024年04月22日
  • 简介
    我们介绍了phi-3-mini,这是一个训练了3.3万亿个标记的38亿参数语言模型,其整体表现在学术基准和内部测试中都与Mixtral 8x7B和GPT-3.5等模型相媲美(例如,phi-3-mini在MMLU上达到了69%,在MT-bench上达到了8.38),尽管足够小,可部署在手机上。创新完全在于我们用于训练的数据集,这是phi-2使用的数据集的扩展版本,由经过严格过滤的网络数据和合成数据组成。该模型还进一步针对鲁棒性,安全性和聊天格式进行了调整。我们还提供了一些初始的参数缩放结果,使用了7B和14B模型,训练了48T个标记,称为phi-3-small和phi-3-medium,两者都比phi-3-mini更具实力(例如,分别在MMLU上达到了75%和78%,在MT-bench上分别达到了8.7和8.9)。
  • 图表
  • 解决问题
    本论文旨在介绍phi-3-mini这个3.8亿参数的语言模型,它是使用过滤后的网络数据和合成数据进行训练的,能够在学术基准和内部测试中与Mixtral 8x7B和GPT-3.5等模型相媲美,而且足够小,可以部署在手机上。
  • 关键思路
    本论文的关键思路是使用过滤后的网络数据和合成数据训练phi-3-mini这个小型语言模型,并进一步对其进行鲁棒性、安全性和聊天格式的调整。
  • 其它亮点
    phi-3-mini这个小型语言模型在学术基准和内部测试中表现良好,同时还提供了phi-3-small和phi-3-medium这两个更强大的模型。论文使用了过滤后的网络数据和合成数据进行训练,并对模型进行了鲁棒性、安全性和聊天格式的调整。值得关注的是,这些模型足够小,可以在手机上部署。论文还提供了一些开源代码和数据集。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如GPT-3等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论