GKT: A Novel Guidance-Based Knowledge Transfer Framework For Efficient Cloud-edge Collaboration LLM Deployment

2024年05月30日
  • 简介
    随着大型语言模型(LLM)规模的不断增长,生成响应的能力得到了提高,但代价是推理时间和资源需求的增加。现有的加速方法主要依赖于知识蒸馏,通常需要对相当大的模型进行微调,如Llama-7B,这对于普通用户来说是一个挑战。此外,目前的加速推理和降低成本的技术是独立运作的。为了解决这些问题,我们引入了一种新颖而直观的基于指导的知识转移(GKT)框架。这种方法利用一个更大的LLM作为“老师”创建指导提示,配合一个较小的“学生”模型来完成响应。值得注意的是,GKT不需要微调,也不需要老师和学生模型具有相同的词汇表,可以进行大量批量生成以加速过程,同时确保用户定制。GKT可以无缝地集成到云边协作架构中,并且足够通用,可以在各种模型中进行即插即用的应用。它在效率和经济性方面都表现出色,是一种“便宜而愉快”的解决方案。在GSM8K和CSQA数据集上,GKT实现了最大的精度提高14.18%,同时在GSM8K上加速了10.72倍,在CSQA上提高了14.00%的精度,同时加速了7.73倍。当使用ChatGPT作为教师模型,Llama2-70B作为学生模型时,我们可以以52%的成本实现ChatGPT 95.00%的性能。结果突出了在GSM8K和CSQA数据集上精度和处理速度的显著提高,超过了单独使用学生或教师模型的性能。
  • 图表
  • 解决问题
    解决问题:论文试图通过Guidance-based Knowledge Transfer(GKT)框架解决大型语言模型(LLMs)的推理速度和资源需求问题,同时不需要对大型模型进行微调,使其更易于普通用户使用。
  • 关键思路
    关键思路:GKT框架利用一个更大的LLM作为“教师”来创建指导提示,与一个较小的“学生”模型配对以完成响应,从而提高推理速度和准确性。GKT不需要微调,也不需要教师和学生模型具有相同的词汇表,可以进行批量生成以加速过程同时确保用户自定义。
  • 其它亮点
    其他亮点:论文在GSM8K和CSQA数据集上进行了实验,GKT在准确性和处理速度方面均有显著提高,超过了单独使用学生或教师模型的性能。当使用ChatGPT作为教师模型,Llama2-70B作为学生模型时,可以以52%的成本实现ChatGPT性能的95.00%。该方法具有高效性和经济性,适用于云边协作架构,并且可以在各种模型之间进行即插即用的应用。
  • 相关研究
    相关研究:目前主要的加速方法是基于知识蒸馏,需要对大型模型进行微调,如Llama-7B,这对于普通用户来说是一个挑战。最近的相关研究包括:《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》、《TinyBERT: Distilling BERT for Natural Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论