The Computational Curse of Big Data for Bayesian Additive Regression Trees: A Hitting Time Analysis

2024年06月28日
  • 简介
    本文介绍了贝叶斯加性回归树(BART)模型,这是一种流行的贝叶斯非参数回归模型,常用于因果推断等领域。该模型具有强大的预测性能,并且在各种数据生成设置和适当的先验选择下,其后验分布集中在真实回归函数周围的速度得到理论保证。本文表明,BART采样器通常收敛缓慢,这一点也被其他研究人员的经验观察所证实。在假设离散协变量的情况下,本文表明,尽管BART后验集中在包含所有最优树结构(最小偏差和复杂度)的集合中,但在几种常见的数据生成设置下,马尔科夫链对于该集合的击中时间随着n(训练样本大小)的增加而增加。随着n的增加,近似BART后验因此越来越不同于精确后验(对于相同数量的MCMC样本),这与早期关于精确后验的集中结果形成对比。我们的模拟结果突出了这种对比,显示了近似后验区间的频率低估加剧和近似后验均方误差与通过平均多个采样器链改善收敛的可获得均方误差之间的增长比率。最后,基于我们的理论洞察力,讨论了改进BART采样器收敛性能的可能性。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在探讨Bayesian Additive Regression Trees (BART)采样器的收敛速度问题,以及随着训练样本数量增加,近似BART后验概率逐渐与精确后验概率不同的现象。
  • 关键思路
    论文发现,虽然BART后验概率集中在包含所有最优树结构(最小偏差和复杂度)的集合中,但在多种常见数据生成设置下,该集合的马尔科夫链的命中时间随着n的增加而增加。这导致随着n的增加,近似BART后验概率与精确后验概率的不同逐渐加大。
  • 其它亮点
    通过模拟实验,论文发现近似后验区间的频率覆盖不足,并且近似后验均方误差与通过平均多个采样器链改进收敛性能获得的均方误差之间的比率逐渐增大。最后,基于理论洞察,讨论了改进BART采样器收敛性能的可能性。
  • 相关研究
    在这个领域中,最近的相关研究包括《Bayesian Additive Regression Trees with Interaction Splits》、《Bayesian Additive Regression Trees: Rejoinder》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问