Scalable Generalized Bayesian Online Neural Network Training for Sequential Decision Making

向作者提问

NEW

简介

我们提出了用于神经网络参数在线学习和广义贝叶斯推断的可扩展算法，这些算法专为顺序决策任务设计。我们的方法结合了频率学派和贝叶斯滤波的优势，包括通过块对角近似参数误差协方差实现快速低秩更新，以及用于决策的明确定义的后验预测分布。更具体地，我们的主要方法对隐藏层参数更新低秩误差协方差，而对最后一层参数更新全秩误差协方差。尽管这表征了一个非规范的后验分布，但我们证明由此产生的后验预测分布是明确定义的。我们的方法可以在线更新所有网络参数，无需回放缓冲区或离线再训练。我们通过实证研究展示了，在（非平稳）上下文多臂老虎机问题和贝叶斯优化问题中，我们的方法在速度和准确性之间达到了具有竞争力的权衡。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

该论文试图解决在线学习和神经网络参数的贝叶斯推理问题，特别是在顺序决策任务（如上下文 bandit 和贝叶斯优化）中的应用。这是一个在动态、非平稳环境下的实时决策问题，要求算法能够快速适应新数据而无需重放缓冲区或离线重新训练。
关键思路

论文的关键思路是结合频率学派和贝叶斯过滤的优势，提出一种可扩展的在线学习算法。具体而言，它通过块对角近似实现低秩误差协方差矩阵的快速更新，并为隐藏层参数维护低秩协方差，为最后一层参数维护全秩协方差。尽管这种后验分布是非标准的（improper posterior），但其预测分布仍然明确定义。这种方法能够在速度与准确性之间取得良好的平衡。
其它亮点

论文展示了其实验结果在上下文 bandit 和贝叶斯优化问题上的竞争力，并证明了方法的有效性。实验设计涵盖了非平稳环境下的场景，验证了算法的适应能力。此外，该方法无需依赖重放缓冲区或离线重新训练，具有较高的实际应用潜力。虽然未明确提到代码开源情况，但其提出的块对角近似和分层协方差更新策略值得进一步研究和优化。
相关研究

近期相关工作包括：1) 'Functional Variational Bayesian Neural Networks' 提出了函数级变分推断方法；2) 'Online Structured Laplace Approximations for Overcoming Catastrophic Forgetting' 探讨了在线拉普拉斯近似以应对灾难性遗忘问题；3) 'Bayesian Neural Network Priors Revisited' 深入分析了贝叶斯神经网络的先验选择。这些研究共同推动了在线学习和贝叶斯推理的发展。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问