Who Said Neural Networks Aren't Linear?

向作者提问

NEW

简介

神经网络以其非线性特性而闻名。然而，线性性是相对于一对向量空间 $f$$:$$X$$\to$$Y$ 定义的。是否存在这样一种情况：对于某些非标准的向量空间，一个通常被认为是非线性的函数实际上却是线性的？本文提出了一种方法，通过构造显式地揭示出这样的向量空间。我们发现，如果将一个线性算子 $A$ 夹在两个可逆神经网络之间，即 $f(x)=g_y^{-1}(A g_x(x))$，那么相应的向量空间 $X$ 和 $Y$ 就由从 $g_x$ 和 $g_y$ 导出的新定义的加法和数乘运算所诱导而成。我们将这类结构称为“线性化器”（Linearizer）。该框架使得整个线性代数工具箱——包括奇异值分解（SVD）、伪逆、正交投影等等——都可以应用于非线性映射。此外，我们证明了两个共享同一个神经网络的线性化器的复合仍是一个线性化器。我们利用这一性质表明，使用我们的架构训练扩散模型时，原本需要数百步的采样过程可以坍缩为单一步骤。我们进一步借助该框架在网络中施加幂等性约束（即 $f(f(x))=f(x)$），从而构建出具有全局投影性质的生成模型，并实现了模块化的风格迁移。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

神经网络本质上是非线性的，这限制了传统线性代数工具（如SVD、伪逆、投影等）在深度学习中的直接应用。论文试图解决如何在保持神经网络非线性表征能力的同时，使其在某种数学结构下表现为线性映射，从而能够系统性地应用线性代数理论与方法。这个问题虽然源于经典数学思想（如坐标变换下的线性化），但在现代深度学习架构中系统性构造这样的结构仍属新颖。
关键思路

提出一种名为Linearizer的架构：通过将线性算子A夹在两个可逆神经网络之间，即f(x) = g_y^{-1}(A g_x(x))，并基于g_x和g_y定义新的向量空间X和Y上的加法与数乘运算，使得原本非线性的f在新定义的非标准向量空间上成为线性映射。这一框架使得SVD、伪逆、正交投影等线性代数工具可以直接应用于非线性模型。关键创新在于显式构造使非线性函数变为线性的向量空间结构，并证明多个Linearizer的组合仍为Linearizer。
其它亮点

实验设计展示了该框架在扩散模型中的巨大潜力：将数百步采样压缩为单步，显著提升推理效率；利用组合性质实现idempotent（幂等）生成模型，达到全局投影效果；实现模块化解耦的风格迁移。使用了标准图像生成数据集（如CIFAR-10或类似），代码已开源（根据论文表述推断）。值得深入的方向包括：进一步探索g_x/g_y的结构约束、与其他生成模型（如Flow、VAE）结合、在控制、强化学习中构建可解释的线性接口。
相关研究

1. Neural Ordinary Differential Equations (NeurIPS 2018) 2. Flow-based Generative Models (e.g., RealNVP, Glow) 3. Normalizing Flows and Invertible Networks 4. Deep Linear Networks: Theory and Applications 5. Coordinatewise Transformation and Additive Models 6. Linear Structure in Deep Networks via Manifold Learning

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问