Minions: Cost-efficient Collaboration Between On-device and Cloud Language Models

向作者提问

NEW

简介

我们研究了一种新兴的设置，其中小型的、位于设备上的语言模型（LM）可以访问本地数据，并与前沿的、基于云端托管的语言模型通信，以解决涉及金融、医疗和科学推理的长文档中的实际任务。本地与远程协作能否在保持质量的同时减少云端推理成本？首先，我们考虑一种简单的协作协议，即本地模型和远程模型简单地来回对话。由于只有本地模型读取完整上下文，该协议实现了远程成本30.4倍的降低，但仅恢复了前沿模型性能的87%。我们确定了该协议的两个关键限制：本地模型难以（1）遵循远程模型的多步骤指令，以及（2）对长上下文进行推理。基于这些观察，我们研究了这一协议的扩展版本，称为MinionS，在该版本中，远程模型将任务分解为更简单的子任务，这些子任务针对文档的较短部分并行地在本地执行。MinionS平均将成本降低了5.7倍，同时恢复了远程模型单独运行时性能的97.9%。我们的分析揭示了几个影响本地-远程系统中成本与性能权衡的关键设计选择。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决如何通过本地-远程模型协作来减少云端推理成本，同时保持高质量的性能。这是一个新兴的问题，尤其是在处理涉及金融、医疗和科学推理的长文档时，这种协作能否有效降低成本并保持准确性。
关键思路

关键思路是通过本地小型语言模型与云端大型语言模型的协作来解决问题。相比现有研究，这篇论文提出了一个改进的协议MinionS，其中远程模型将任务分解为更简单的子任务，并在本地并行执行这些子任务。这种方法不仅显著减少了云成本，还几乎恢复了远程模型单独工作时的性能。
其它亮点

论文的主要亮点包括：1) 提出了一个30.4倍的成本降低但只有87%性能恢复的简单聊天协议；2) 引入了MinionS协议，实现了5.7倍的成本降低和97.9%的性能恢复；3) 分析了影响成本和性能之间权衡的关键设计选择。此外，该研究强调了本地模型在处理多步指令和长上下文中的挑战，并提供了详细的实验设计和分析。
相关研究

最近在这个领域中，相关研究还包括：1) 'On-Device Machine Learning for the Next Billion Users'，探讨了设备端机器学习的应用；2) 'Efficient Inference for On-Device AI Applications'，研究了设备端AI应用的有效推理方法；3) 'Distributed Deep Learning in Heterogeneous Networks'，讨论了异构网络中的分布式深度学习。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问