- 简介大型语言模型的规模定律为如何训练更大的模型以获得可预测的性能提升提供了有用的指导。时间序列预测与语言具有类似的序列结构,并且可以采用大规模的Transformer架构。在这里,我们展示了基础的仅解码时间序列Transformer模型表现出类似于LLMs的缩放行为,而架构细节(宽高比和头数)在广泛范围内的影响极小。我们组装了一个大型异构时间序列数据集进行训练,并首次建立了关于参数数量、数据集大小和训练计算的幂律缩放关系,跨越了五个数量级。
-
- 图表
- 解决问题论文旨在探讨大型语言模型(LLMs)的缩放规律是否适用于时间序列预测问题,以及参数数量、数据集大小和训练计算量对模型性能的影响。
- 关键思路论文发现,基于解码器的时间序列Transformer模型与LLMs具有类似的缩放行为,而模型结构的细节对性能的影响较小。同时,论文构建了一个大型异构时间序列数据语料库,并首次建立了与参数数量、数据集大小和训练计算量相关的幂律缩放关系。
- 其它亮点论文的实验结果表明,时间序列Transformer模型的性能可以通过增加参数数量、数据集大小和训练计算量来提高;论文还开源了实验代码和数据集,为该领域的研究提供了有价值的资源。
- 在相关研究方面,最近也有一些关于大型时间序列模型和Transformer模型的研究,例如《Probabilistic Time Series Modeling Using Transformer》和《Gated Transformer Networks for Multi-Domain Continuous-Time Time Series Classification》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流