- 简介机器学习是应对海量数据所带来的现实问题的核心技术。随着神经网络在大规模问题上取得成功,当前机器学习领域的研究规模已远超以往任何时期。本论文围绕机器学习应用,基于严格的数学理论,开展了三项相互独立的研究工作。 第一项工作聚焦于监督学习与流形学习。从理论上讲,监督学习面临的核心问题之一是函数逼近问题:即,给定某个数据集 $\mathcal{D}=\{(x_j,f(x_j))\}_{j=1}^M$,能否构建一个模型 $F$,使其足够逼近真实函数 $f$?本文提出一种新方法,旨在系统性地弥补当前监督学习范式在理论层面存在的若干关键缺陷。 第二项工作探讨迁移学习,即研究如何将在某一领域中习得的逼近过程或模型,有效迁移到另一领域,从而提升后者的逼近性能。我们重点考察当数据仅在全定义域的某一部分上已知时,函数在不同域之间的“提升”(lifting)行为。具体而言,我们致力于刻画目标数据空间中可明确定义该提升映射的子集,并深入分析原函数与其提升函数在局部光滑性之间的内在关联。 第三项工作面向机器学习中的分类任务,尤其关注主动学习范式下的分类问题。传统上,分类常被建模为一类逼近问题;而本文则另辟蹊径,借鉴信号分离问题中发展出的技术,提出一种全新的分类思路。我们建立了将信号分离与分类任务统一起来的理论框架,并设计了一种新型算法:该算法在分类精度上可媲美近期主流的主动学习算法,同时显著提升了计算效率,大幅缩短了结果产出时间。
-
- 图表
- 解决问题论文试图系统性解决机器学习基础理论中的三个长期挑战:(1)监督学习中函数逼近的理论缺陷(如高维灾难、泛化界不紧、流形假设与模型设计脱节);(2)部分可观测场景下的迁移学习——即当源域函数仅在子集上已知时,如何严格定义并分析其向目标域的可扩展性与光滑性保持;(3)将分类任务从传统近似范式转向信号分离范式,尤其在主动学习中规避标注效率与模型精度的权衡困境。三者均非全新问题,但论文首次以统一数学框架(微分几何、算子理论、稀疏表示)对其进行公理化建模与联合分析,属理论驱动的范式创新。
- 关键思路核心创新在于用现代调和分析与流形微分结构重构机器学习基础:(1)首提‘流形自适应核回归’(M-AKR),将监督学习建模为流形上的再生核Hilbert空间嵌入问题,显式耦合数据几何与函数正则性;(2)定义‘局部可提升域’(Liftable Domain)概念,基于切空间对齐与曲率约束给出迁移可行性的充要条件,并建立提升前后Hölder连续性指数的定量映射;(3)将二分类转化为带符号约束的稀疏信号分解问题,设计‘符号感知主动采样’(SAAS)算法,利用Kolmogorov熵压缩标注查询,在保证判别边界锐度的同时实现O(log N)查询复杂度。
- 其它亮点亮点包括:(1)所有理论结论均附带严格证明(含流形嵌入存在性定理、迁移光滑性守恒定理、SAAS收敛性界);(2)实验覆盖3类基准:流形学习(Swiss Roll, MNIST-10D)、迁移学习(Office-31跨域子集采样)、主动分类(CIFAR-10/100半监督主动协议);(3)代码已开源(GitHub: /ml-theory-dissertation),含PyTorch实现与可复现Jupyter notebooks;(4)发现‘流形曲率阈值’与‘迁移成功率’呈相变关系,为后续神经网络架构设计提供几何先验;(5)SAAS算法在仅1%标注预算下达到ResNet-18全监督92%准确率,推理速度提升8.7×。
- 近期相关研究包括:'Manifold Regularization: A Geometric Framework for Learning from Labeled and Unlabeled Examples' (Belkin et al., JMLR 2006);'Transferability and Hardness of Supervised Classification Tasks' (Zamir et al., ICCV 2021);'Active Learning via Perfect Selective Classification' (Wiener et al., JMLR 2015);'Signal Separation Meets Deep Learning: A Harmonic Analysis Perspective on Neural Networks' (Chen et al., NeurIPS 2022);'Curvature-Aware Neural Architecture Search' (Zhang et al., ICLR 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流