Scaling-laws for Large Time-series Models

2024年05月22日
  • 简介
    大型语言模型的规模定律为如何训练更大的模型以获得可预测的性能提升提供了有用的指导。时间序列预测与语言具有类似的序列结构,并且可以采用大规模的Transformer架构。在这里,我们展示了基础的仅解码时间序列Transformer模型表现出类似于LLMs的缩放行为,而架构细节(宽高比和头数)在广泛范围内的影响极小。我们组装了一个大型异构时间序列数据集进行训练,并首次建立了关于参数数量、数据集大小和训练计算的幂律缩放关系,跨越了五个数量级。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在探讨大型语言模型(LLMs)的缩放规律是否适用于时间序列预测问题,以及参数数量、数据集大小和训练计算量对模型性能的影响。
  • 关键思路
    论文发现,基于解码器的时间序列Transformer模型与LLMs具有类似的缩放行为,而模型结构的细节对性能的影响较小。同时,论文构建了一个大型异构时间序列数据语料库,并首次建立了与参数数量、数据集大小和训练计算量相关的幂律缩放关系。
  • 其它亮点
    论文的实验结果表明,时间序列Transformer模型的性能可以通过增加参数数量、数据集大小和训练计算量来提高;论文还开源了实验代码和数据集,为该领域的研究提供了有价值的资源。
  • 相关研究
    在相关研究方面,最近也有一些关于大型时间序列模型和Transformer模型的研究,例如《Probabilistic Time Series Modeling Using Transformer》和《Gated Transformer Networks for Multi-Domain Continuous-Time Time Series Classification》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问