Large Language Models: A Survey

2024年02月09日
  • 简介
    自从2022年11月ChatGPT发布以来,大型语言模型(LLMs)因其在各种自然语言任务上的强大表现而引起了很多关注。LLMs的通用语言理解和生成能力是通过在大量文本数据上训练数十亿个模型参数获得的,这符合缩放定律的预测。虽然LLMs的研究领域非常新,但在许多不同的方面正在快速发展。本文回顾了一些最著名的LLMs,包括三个流行的LLM家族(GPT、LLaMA、PaLM),并讨论它们的特点、贡献和限制。我们还概述了开发和增强LLMs的技术,并调查了为LLM训练、微调和评估准备的流行数据集,回顾了广泛使用的LLM评估指标,并比较了几个流行的LLMs在一组代表性基准测试中的性能。最后,我们通过讨论开放性挑战和未来研究方向来结束本文。
  • 作者讲解
  • 图表
  • 解决问题
    对大型语言模型(LLMs)进行综述,探讨它们的特点、贡献和限制,以及构建和增强LLMs的技术。同时,回顾了为LLMs训练、微调和评估准备的流行数据集,评估指标以及几个代表性基准测试上几个流行LLMs的性能。
  • 关键思路
    通过训练数十亿个参数的模型,LLMs能够实现通用语言理解和生成,其性能在自然语言处理任务上表现出色。该综述回顾了三个流行的LLM家族(GPT、LLaMA、PaLM)以及构建和增强LLMs的技术。
  • 其它亮点
    论文回顾了三个流行的LLM家族(GPT、LLaMA、PaLM)以及构建和增强LLMs的技术。同时,对为LLMs训练、微调和评估准备的流行数据集、评估指标以及几个代表性基准测试上几个流行LLMs的性能进行了回顾和比较。
  • 相关研究
    最近在这个领域中,还有一些相关的研究被进行,如《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Large-Scale Language Model Compression》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问