Supervised learning with probabilistic morphisms and kernel mean embeddings

解决问题:本篇论文旨在提出一个正确的损失函数来衡量监督学习中假设空间中的预测器与监督算子之间的差异,以解决条件概率估计问题。作者通过提出条件概率测度的两种特征来定义正确的损失函数。

关键思路:作者提出了两种特征来定义正确的损失函数,一种是相对于投影算子的线性算子方程的解,另一种是使用核平均嵌入从输入空间到标签空间的马尔可夫核的概率态射的均方误差的最小化。相比于当前领域的研究,这篇论文提出的思路是新颖的。

其他亮点:作者使用内部度量来量化学习算法的泛化能力,并基于Cucker-Smale的结果给出了一个回归模型可学习性的推广。作者还给出了Vapnik解决随机不适定问题的一种方法,并讨论了其应用。本文的实验设计并未提及。

关于作者:本文的作者是Hông Vân Lê,他的机构不详。根据我的数据库,Hông Vân Lê之前的代表作是“On the use of the Fisher–Rao metric for comparing algorithms”(使用Fisher-Rao度量比较算法)。

相关研究:近期的相关研究包括“Learning with kernels: A review”(使用核学习:一篇综述) by Bernhard Schölkopf and Alex J. Smola from Max Planck Institute for Biological Cybernetics, and “A Probabilistic Theory of Deep Learning”(深度学习的概率理论) by Max Tegmark from Massachusetts Institute of Technology.

论文摘要:本文提出了一个正确的损失函数的概念,用于测量监督学习生成模型中假设空间 $\mathcal{H}$ 中可能的预测器与监督操作者之间的差异,其中监督操作者可能不属于 $\mathcal{H}$。为了定义正确的损失函数,本文提出了一个正则条件概率测度 $\mu{\mathcal{Y}|\mathcal{X}}$ 的表征方式,用于概率测度 $\mu$ 在 $\mathcal{X} \times \mathcal{Y}$ 上,相对于投影 $\Pi{\mathcal{X}}: \mathcal{X}\times\mathcal{Y}\to \mathcal{X}$ 的解线性算子方程。如果 $\mathcal{Y}$ 是一个可分可度量化的拓扑空间,其 Borel $\sigma$-代数为 $\mathcal{B} (\mathcal{Y})$,本文提出了另一种正则条件概率测度 $\mu_{\mathcal{Y}|\mathcal{X}}$ 的表征方式,作为从 $\mathcal{X}$ 到 $\mathcal{Y}$ 的马尔科夫核空间中的概率形态映射的均方误差的极小化器,使用核均值嵌入。利用这些结果,并使用内测度来量化学习算法的泛化能力,本文将 Cucker-Smale 的一个关于回归模型可学习性的结果推广到条件概率估计问题的情形,并给出了 Vapnik 解决随机不适定问题的方法的一个变体,使用内测度,并讨论了其应用。

内容中包含的图片若涉及版权问题,请及时与我们联系删除