Petals: Collaborative Inference and Fine-tuning of Large Models

大模型的协同推理与微调

A Borzunov, D Baranchuk, T Dettmers, M Ryabinin, Y Belkada, A Chumachenko, P Samygin, C Raffel

[Yandex & University of Washington & Hugging Face]

论文地址:https://arxiv.org/abs/2209.01188

petals 允许协同运行像 BLOOM-176B 这样的大型语言模型,原理是加载模型的一小部分,然后与服务于其他部分的人合作,运行推理或微调。推理的运行速度为每步(token)≈1秒,比卸载的速度快10倍,足以满足聊天机器人和其他互动应用程序的需求。

petals 超越了经典的语言模型 API,可以通过执行模型的自定义路径或访问其隐藏状态,采用任何微调和采样方法,同时获得 API 的舒适性和 PyTorch 的灵活性。

https://github.com/bigscience-workshop/petals

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除