- 简介尽管深度学习模型运行的是定义明确的数学函数,但我们目前仍缺乏一个用于描述模型架构的严格数学框架。现有的临时性符号表示、示意图和伪代码难以妥善处理非线性广播(nonlinear broadcasting)机制,也无法清晰刻画单个组件与组合后整体模型之间的关系。本文提出了一种面向深度学习模型的范畴论框架,通过新引入的“轴-步长范畴”(axis-stride category)与“数组广播范畴”(array-broadcasted category),对广播机制进行了形式化建模。该框架使得模型架构所对应的底层数学函数得以被精确表达,并以可组合的方式进行推演与操作。这些数学定义进一步被转化为人类易于理解的示意图,以及机器可解析的数据结构。我们同步提供了 Python(pyncd)与 TypeScript(tsncd)两种语言的镜像实现,以体现本框架的普适性;其功能涵盖代数化构建、计算图转换、PyTorch 编译支持,以及示意图渲染等。该工作为深度学习模型的设计与分析奠定了系统化、形式化的理论基础。
-
- 图表
- 解决问题深度学习模型缺乏形式化的数学框架来精确描述和组合模型架构,现有方法(如非正式符号、图表、伪代码)难以严谨处理张量广播、轴对齐及组件间的代数合成关系,导致模型设计、验证与分析缺乏系统性基础。这是一个尚未被充分解决的新问题。
- 关键思路提出基于范畴论的统一数学框架,原创性地定义axis-stride category(轴-步长范畴)和array-broadcasted category(广播数组范畴),将深度学习模型建模为可组合的函子与自然变换,使广播行为、维度语义和架构组合获得严格数学刻画,并实现人类可读图表与机器可执行结构的双向映射。
- 其它亮点首次实现深度学习架构的形式化范畴建模;提供跨语言镜像实现(Python的pyncd与TypeScript的tsncd);支持代数构造、计算图转换、PyTorch自动编译及LaTeX/HTML可渲染架构图;所有工具开源;实验通过经典模型(MLP、CNN、Transformer子模块)验证框架表达力与编译正确性;未来方向包括范畴语义下的可微分推理、形式化等价性证明与硬件感知编译优化。
- 《Deep Learning with Differential Equations》(Chen et al., NeurIPS 2018);《The Algebraic Structure of Deep Neural Networks》(Gavranović et al., arXiv 2021);《Categorical Foundations of Gradient-Based Learning》(Fong et al., ICLR 2022);《Tensor Networks as Category-Theoretic Diagrams》(Morton & Tull, QPL 2020)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流