树莓派上部署RAG！微软Phi-3技术报告揭示「小而美」模型如何诞生

编辑：乔杨好困

这个月的微软Build大会上，微软正式官宣了Phi-3家族新成员：Phi-3-vision、Phi-3-small，Phi-3-medium。

此外，还有上个月就发布技术报告的Phi-3-mini，刚推出时，就让许多开发者印象深刻。

比如，Xenova基于Phi-3-mini开发了一个完全在本地运行的浏览器聊天应用WebGPU，demo看起来的效果像是经过加速的视频：

结果Xenova还要特意出来声明：视频没加速，部署的模型就是这么快，平均每秒生成69.85个token。

在人人追求LLM的大环境下，微软却始终没有放弃SLM这条路。

从去年6月Phi-1面世，到Phi-1.5、Phi-2，再到如今Phi-3，微软小模型已经完成四次迭代升级。

这次3.8B参数的Phi-3-mini、7B的small和14B的medium，相比规模更大的模型，都展现出了更强的能力。

并且作为开源模型，可以在手机上、甚至在树莓派上部署，微软简直太宠爱开发者了。

昨天，微软Gen AI Research的副总裁Sebastien Bubeck在推特上宣布更新了Phi-3的技术报告，添加了small和medium版本的最终得分，以及视觉模型的测评结果。

在评论区，网友们尽情抒发对Phi-3这种开源且强大的小模型的喜爱之情。

甚至有人形容，这是「微软给开源世界的礼物」。

或许，微软在SLM这条路上真的赌对了？让有强大能力的模型真正落地、渗透到各种应用中，才能带来真正的变革。

Phi-3结果提示我们，用如此少的内存足迹可以实现多少可能性，现在有真正的机会可以让模型扩展到各种app上了

那么，Phi-3系列的实力到底如何？我们可以从最新版的技术报告一探究竟。

Phi-3语言模型：小而美

Phi-3-mini与small都使用了标准的纯解码器Transformer架构。
为了最大程度方便开源社区，Phi-3-mini使用了和Llama 2相同的分词器和类似的块结构，这就意味着所有部署在Llama 2上的软件包都可以无缝迁移。
small版模型则使用OpenAI的tiktoken分词器，更适合多语言任务，此外为了实现高效的训推，也在模型架构上做了许多改进：
用GEGLU激活函数代替GELU
使用最大更新参数化策略（Maximal Update Parameterization）在代理模型上调整超参数，保证模型训练时的参数稳定
采用分组查询注意力
设计了块稀疏注意力模块（blocksparse attention module），用较少的KV缓存处理更长的上下文
为训练和推理分别实现不同的kernel，真正发挥块稀疏机制的优势，实现部署后的模型加速
Phi-3-mini部署时可以采用INT4量化，仅需占用1.8GB左右的内存。量化后部署在搭载A16芯片的iPhone 14上时，离线运行可以实现12 tokens/s的生成速度。
训练后也使用了多样化的高质量数据，进行SFT和DPO微调，涵盖数学、编码、推理、对话、模型身份和安全性等多个领域。此外，也在这个阶段将mini版本的上下文长度扩展到了128k。
通过使用少样本提示，技术报告将不同参数量的Phi-3模型和Mistral、Gemma以及Llama 3、Mixtral（8X7B）、GPT-3.5等模型对比，在21个基准上进行测试。
相比2.7B的Phi-2模型，Phi-3模型的参数增长了1.1B，但在所有测试中几乎都实现了10分及以上的性能提升，基本可以和8B的Llama 3打成平手。
总体来看，7B参数的small版本可以和GPT-3.5对标，除了在TriviaQA和TrufulQA上有较大差距，其余测试的分数基本持平，甚至在GSM-8K、SociQA、BigBench-Hard、WinoGrande等测试上还有大幅度领先。
而medium模型的表现并不如意，虽然相比small多了7B的参数，但用的是Phi-3-mini同款架构，在各个测试中都没有明显优势，在ANLI和OpenBookQA上还有性能倒退。
Phi-3-Vision：4.2B的强大多模态

内容中包含的图片若涉及版权问题，请及时与我们联系删除