XGen进行长序列建模：在8K输入序列长度上训练的7BLLM

Salesforce介绍了XGen-7B，这是一个新的7B LLM，在8K序列长度上训练，用于1.5T标记。在文本和代码任务中，与MPT、Falcon、LLaMA、OpenLLaMA相比，效果更好或相当。

在标准的NLP基准测试中，XGen与最先进的开源LLM（如MPT、Falcon、LaMA、Redpajama、OpenLLaMA）相比，在类似的模型规模下取得了相当或更好的结果。我们对长序列建模基准的目标评估显示，我们的8K-seq模型比2K-和4K-seq模型有优势。

XGen-7B在文本（如MMLU，QA）和代码（HumanEval）任务中都取得了同样出色的成绩。根据谷歌云对TPU-v4的定价，1T代币的训练成本为15万美元。

内容中包含的图片若涉及版权问题，请及时与我们联系删除