- 简介语言模型在各种软件应用中表现出有效性,特别是在与自动工作流相关的任务中。这些模型具有调用函数的关键能力,这在创建AI代理时是必不可少的。尽管大规模语言模型在云环境中表现出高性能,但它们常常涉及隐私和成本方面的问题。目前,在设备上进行函数调用的模型面临延迟和准确性的问题。我们的研究提出了一种新方法,可以使具有20亿参数的设备上模型在准确性和延迟方面超越GPT-4,并将上下文长度减少95%。与基于RAG的函数调用机制的Llama-7B相比,我们的方法将延迟提高了35倍。这种方法将延迟降低到适合在生产环境中部署各种边缘设备的性能要求,符合实际应用程序的性能要求。
-
- 图表
- 解决问题论文试图通过提出一种新的方法,解决当前在本地设备上调用函数时存在的延迟和准确性问题,以及云端大规模语言模型存在的隐私和成本问题。
- 关键思路论文提出的方法是将本地设备上的模型与云端模型相结合,使用云端模型预测函数调用结果,从而减少本地设备上的计算量和延迟,同时保护用户的隐私和降低成本。
- 其它亮点论文使用了一个拥有20亿参数的本地模型,通过与云端模型结合,实现了超越GPT-4的精度和95%的上下文长度缩减,同时将延迟降低了35倍。论文还开源了数据集和代码,并提出了一些值得深入研究的问题,如如何在不同的硬件设备上实现更好的性能。
- 近期的相关研究包括:《Llama: leveraging language models for code auto-completion》、《On-device language model-based code completion》等。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流