A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness

2024年11月04日
  • 简介
    大型语言模型(LLM)在文本生成、问答和推理方面展现了突现能力,促进了各种任务和领域的应用。尽管它们在各种任务中表现出色,但像LaPM 540B和Llama-3.1 405B这样的LLM由于参数量庞大和计算需求高,通常需要使用云API,这引发了隐私问题,限制了边缘设备上的实时应用,并增加了微调成本。此外,LLM在医疗和法律等专业领域往往表现不佳,因为缺乏足够的领域特定知识,需要专门的模型。因此,小型语言模型(SLM)因其低推理延迟、成本效益、开发高效以及易于定制和适应而越来越受到青睐。这些模型特别适合资源受限的环境和领域知识获取,解决了LLM的挑战,并证明在需要本地数据处理以保护隐私、最小化推理延迟以提高效率以及通过轻量级微调获取领域知识的应用中非常理想。对SLM的需求不断增加,推动了广泛的研究和开发。然而,关于定义、获取、应用、增强和可靠性等方面的问题,尚缺乏全面的调查,促使我们对这些问题进行详细的调查。SLM的定义差异很大,因此为了标准化,我们建议根据其执行特定任务的能力和适用于资源受限环境的适宜性来定义SLM,设定基于突现能力的最小规模和资源约束下可维持的最大规模的界限。对于其他方面,我们提供了一个相关模型/方法的分类,并为每个类别开发了一般的框架,以有效增强和利用SLM。
  • 图表
  • 解决问题
    论文试图解决的问题是大型语言模型(LLM)在实际应用中的局限性,如参数量大、计算需求高、隐私问题、实时应用限制和细调成本高等。此外,LLM在特定领域如医疗和法律方面的知识不足也是一个问题。这些问题促使研究者们关注小型语言模型(SLM),但目前缺乏对SLM定义、获取、应用、增强和可靠性的全面调查。
  • 关键思路
    论文的关键思路是提出一个标准化的小型语言模型(SLM)定义,基于其执行特定任务的能力和适应资源受限环境的特性。同时,论文还提出了一个分类框架,涵盖相关模型和方法,并为每个类别开发通用框架,以有效增强和利用SLM。这一思路的新颖之处在于系统地解决了SLM领域的多个关键问题,填补了现有研究的空白。
  • 其它亮点
    论文的其他亮点包括: 1. 提出了一个全面的SLM定义标准,基于最小和最大模型尺寸的界限。 2. 提供了一个详细的分类体系,涵盖了各种相关模型和方法。 3. 设计了通用框架,帮助研究者和开发者更有效地利用和增强SLM。 4. 强调了SLM在资源受限环境和特定领域知识获取中的优势。 5. 指出未来研究方向,包括进一步优化SLM的性能和扩展其应用范围。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如: 1. "Smaller, Faster, Cheaper: A Survey of Efficient Neural Network Architectures for Edge Devices" - 探讨了高效神经网络架构在边缘设备上的应用。 2. "Domain-Specific Language Models: A Comprehensive Survey" - 调查了特定领域语言模型的研究进展。 3. "Efficient Fine-Tuning Strategies for Small Language Models" - 研究了小型语言模型的有效微调策略。 4. "Privacy-Preserving Techniques for On-Device Machine Learning" - 讨论了保护隐私的设备端机器学习技术。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论