- 简介监督式卷积神经网络(CNN)被广泛用于解决成像反问题,在众多应用中取得了最先进的性能。然而,尽管这些方法在经验上表现出色,但从理论角度对其理解仍然不足,通常被视为黑箱模型。为弥合这一差距,本文从最小均方误差(MMSE)估计器的视角分析训练后的神经网络,并引入了能够刻画CNN两大基本归纳偏置的功能性约束:平移等变性以及通过有限感受野体现的局部性。在经验训练分布下,我们推导出该约束版本的一个解析的、可解释且易于处理的公式,称为局部-等变MMSE(LE-MMSE)。通过在多种反问题(去噪、图像补全、解卷积)、不同数据集(FFHQ、CIFAR-10、FashionMNIST)和多种网络结构(U-Net、ResNet、PatchMLP)上的大量数值实验,我们验证了所提出的理论能够准确匹配神经网络的实际输出(PSNR $\gtrsim25$dB)。此外,本文还深入探讨了“物理感知”与“物理不可知”估计器之间的差异,训练(图像块)分布中高密度区域的影响,以及其他因素(如数据集大小、图像块尺寸等)的作用机制。
-
- 图表
- 解决问题论文试图解决监督式卷积神经网络(CNN)在图像逆问题中虽然表现优异但缺乏理论解释的问题,即当前方法多被视为黑箱,其成功背后的原理尚不清楚。这是一个重要且尚未充分解决的问题,尤其是在追求可解释AI的背景下。
- 关键思路提出了一种受CNN归纳偏置启发的受限最小均方误差估计器——局部等变MMSE(LE-MMSE),通过引入平移等变性和有限感受野(局域性)两个关键约束,在经验训练分布下推导出一个可解析、可解释且可计算的公式,用以近似和理解训练后CNN的行为。相比以往纯经验性的模型设计,该工作首次从统计估计角度为CNN的成功提供了理论建模框架。
- 其它亮点通过大量实验验证了LE-MMSE与多种实际架构(U-Net、ResNet、PatchMLP)在多个图像逆问题(去噪、修复、去卷积)和数据集(FFHQ、CIFAR-10、FashionMNIST)上的输出高度一致(PSNR ≳25dB)。揭示了物理感知与物理不可知估计器之间的差异,并分析了训练分布密度、数据集大小、patch尺寸等因素的影响。代码已开源,为进一步研究提供了基础。未来可探索更复杂的归纳偏置建模、动态感受野机制以及向视频或3D医学图像扩展。
- 1. Understanding Deep Learning Requires Rethinking Generalization 2. A Mathematical Theory of Deep Convolutional Neural Networks for Feature Extraction 3. The Implicit Bias of Depth: How Incremental Learning Governs Generalization in CNNs 4. Deep Image Prior 5. On the Role of Non-locality in Neural Networks for Inverse Problems
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流