Salesforce介绍了XGen-7B,这是一个新的7B LLM,在8K序列长度上训练,用于1.5T标记。在文本和代码任务中,与MPT、Falcon、LLaMA、OpenLLaMA相比,效果更好或相当。

博客:http://blog.salesforceairesearch.com/xgen/  
github: https://github.com/salesforce/xgen

在标准的NLP基准测试中,XGen与最先进的开源LLM(如MPT、Falcon、LaMA、Redpajama、OpenLLaMA)相比,在类似的模型规模下取得了相当或更好的结果。我们对长序列建模基准的目标评估显示,我们的8K-seq模型比2K-和4K-seq模型有优势。

XGen-7B在文本(如MMLU,QA)和代码(HumanEval)任务中都取得了同样出色的成绩。根据谷歌云对TPU-v4的定价,1T代币的训练成本为15万美元。

内容中包含的图片若涉及版权问题,请及时与我们联系删除