Distributed Inference and Fine-tuning of Large Language Models Over The Internet

简介

大型语言模型在许多自然语言处理任务中都非常有用，并且随着规模的增加而变得更加强大，最好的开源模型拥有超过500亿个参数。然而，使用这些超过50亿的模型需要高端硬件，这使得大多数研究人员无法使用。在这项工作中，我们研究了LLM的成本效益推断和微调方法，比较了本地和分布式策略。我们观察到，即使在消费级网络中，足够大的模型（50B+）也可以在地理分布的设备上高效运行。这可以通过汇集多个研究组和志愿者的空闲计算资源来高效地运行LLM。我们解决了两个开放性问题：（1）如何在任何设备突然断开连接的情况下可靠地执行推断和微调，以及（2）如何在硬件不均匀的设备之间分配LLM，随时加入和离开。为了解决这个问题，我们开发了特殊的容错推断算法和负载平衡协议，自动分配设备以最大化整个系统的吞吐量。我们在Petals中展示了这些算法——一个去中心化的系统，可以在Internet上运行Llama 2（70B）和BLOOM（176B），比交互式生成的离线处理速度快10倍。我们在模拟条件和跨越两个大陆的真实世界环境中评估了我们系统的性能。

图表

解决问题

本论文旨在探索LLMs的成本效益推理和微调方法，比较本地和分布式策略，并解决分布式设备之间的断开和不平衡问题。

关键思路

该论文提出了Petals系统，使用特殊的容错推理算法和负载平衡协议，将LLMs分配给设备以最大化系统吞吐量。

其它亮点

Petals系统可以在消费者级网络上运行70B和176B的LLMs，比离线交互生成快10倍。论文还介绍了实验设计和使用的数据集，并提供了开源代码。

Distributed Inference and Fine-tuning of Large Language Models Over The Internet

评论