标题:On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models

链接https://arxiv.org/abs/2307.09793 

作者:Sarah Gao, Andrew Kean Gao

单位:斯坦福大学

摘要

自 2022 年末以来,大语言模型(LLM)已经越来越受关注,像 ChatGPT 和 Bard 这样的 LLM 已经获得了数百万用户。每周都有数百个新的 LLM 发布,其中许多被存储到 Hugging Face,这是一个机器学习模型和数据集的资源库。

迄今为止,该网站上已经上传了近 16,000 个文本生成模型。鉴于 LLMs 的大量涌入,了解哪些 LLM 基础、设置、训练方法和系列受到大家欢迎是有趣的。然而,目前还没有一个全面的 LLM 索引可供使用。

本文利用 Hugging Face LLMs 相对系统的命名规则,通过使用 n-gram 和词频-逆文档频率方法(TF-IDF)进行分层聚类,以识别 LLMs 之间的关联。该方法成功地识别出 LLM 的族群,并将 LLM 准确地聚类到有意义的子群中。

本文提供了一个公共网络应用程序,用于浏览和探索 Constellation,这 15,821 个 LLM 构成的星图。Constellation 可以快速生成各种可视化图表,包括树状图、图形、词云和散点图。

Constellation 可通过以下链接访问:https://constellation.sites.stanford.edu/  

图片

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除