Large Language Models: A Survey - 智源社区论文

向作者提问

NEW

简介

自从2022年11月ChatGPT发布以来，大型语言模型（LLMs）因其在各种自然语言任务上的强大表现而引起了很多关注。LLMs的通用语言理解和生成能力是通过在大量文本数据上训练数十亿个模型参数获得的，这符合缩放定律的预测。虽然LLMs的研究领域非常新，但在许多不同的方面正在快速发展。本文回顾了一些最著名的LLMs，包括三个流行的LLM家族（GPT、LLaMA、PaLM），并讨论它们的特点、贡献和限制。我们还概述了开发和增强LLMs的技术，并调查了为LLM训练、微调和评估准备的流行数据集，回顾了广泛使用的LLM评估指标，并比较了几个流行的LLMs在一组代表性基准测试中的性能。最后，我们通过讨论开放性挑战和未来研究方向来结束本文。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

对大型语言模型（LLMs）进行综述，探讨它们的特点、贡献和限制，以及构建和增强LLMs的技术。同时，回顾了为LLMs训练、微调和评估准备的流行数据集，评估指标以及几个代表性基准测试上几个流行LLMs的性能。
关键思路

通过训练数十亿个参数的模型，LLMs能够实现通用语言理解和生成，其性能在自然语言处理任务上表现出色。该综述回顾了三个流行的LLM家族（GPT、LLaMA、PaLM）以及构建和增强LLMs的技术。
其它亮点

论文回顾了三个流行的LLM家族（GPT、LLaMA、PaLM）以及构建和增强LLMs的技术。同时，对为LLMs训练、微调和评估准备的流行数据集、评估指标以及几个代表性基准测试上几个流行LLMs的性能进行了回顾和比较。
相关研究

最近在这个领域中，还有一些相关的研究被进行，如《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Large-Scale Language Model Compression》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问