【论文标题】The Monte Carlo Transformer: a stochastic self-attention model for sequence prediction 【作者团队】Alice Martin, Charles Ollion, Florian Strub, Sylvain Le Corff, Olivier Pietquin 【发表时间】2020/12/15 【论文链接】https://arxiv.org/pdf/2007.08620.pdf 【推荐理由】本文出自法国巴黎综合理工,针对神经网络通常仅输出单点估计值,缺乏不确定性度量来评估预测准确性问题,搭建了一种序列蒙特卡洛(SMC)算法,通过近似给定观测值状态的后验分布,估计对数似然的梯度,进而自然捕获观测值的分布,得到预测分布结果,取代单点估计。

作者团队在两个综合数据集和五个现实世界时间序列预测任务上评估SMC Transformer模型。 结果显示,SMC成功地捕获了合成设置中的已知观察模型,并且在实际设置中测量经典的预测间隔指标时,性能优于所有并发基线。下图为SMC算法处理序列数据图示。

结论: 在本文中,作者团队提出了SMC模型,这是一种新颖的递归网络,可以自然地捕获观测值的分布。 该模型将自我注意力参数的分布保持为潜在状态,由一组粒子估算。 因此,它输出预测分布而不是单点估计。 文章的推论方法提供了一个灵活的框架来量化观察结果的变异性。 据作者所知,这是专门用于估计transformer模型中不确定性的第一种方法,也是少数在序列预测的背景下专注于不确定性量化的方法之一。 此外,此SMC层可以用作“即插即用”层,用于在对顺序数据进行编码的更深层神经网络中进行不确定性量化。 模型的局限性在于训练时的计算开销; 但是,可以使用文章中提到的SMC算法的特定变体来简化此操作。

内容中包含的图片若涉及版权问题,请及时与我们联系删除