每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
All elementary functions from a single binary operator
2026年03月23日
仅需一个双输入逻辑门,即可实现数字硬件中的全部布尔逻辑运算。然而,在连续数学领域,人们一直未能发现具有类似基础性地位的运算原语:计算正弦(sin)、余弦(cos)、平方根(sqrt)和对数(log)等初等函数,历来都需要多种互不相同的运算操作。本文证明,仅凭一个二元运算符 eml(x, y) = exp(x) − ln(y) 以及常数 1,便足以生成科学计算器所具备的标准全部功能。这其中包括自然常数 e、圆周率 π 和虚数单位 i;基本算术运算——加、减、乘、除及幂运算;以及所有常见的超越函数与代数函数。例如,exp(x) = eml(x, 1),ln(x) = eml(1, eml(eml(1, x), 1)),其余所有运算亦可依此类推、逐一构造。如此简洁而普适的运算符的存在,此前从未被预见;我是通过系统性、穷尽式的搜索发现它的,并以构造性方式严格证明了它足以完备地支撑科学计算器所需的所有基本运算。在 EML(指数减对数)形式下,每一个此类表达式均表现为由完全相同节点构成的二叉树,从而导出极为简明的文法:S → 1 | eml(S, S)。这种高度统一的结构还为基于梯度的符号回归提供了便利:我们将 EML 二叉树作为可训练电路,采用标准优化器(如 Adam)进行训练,实验证明,在树深度不超过 4 的较浅层级下,即可从纯数值数据中精确还原出闭合形式的初等函数表达式。同一架构亦可拟合任意数据;但当数据的真实生成规律本身属于初等函数范畴时,该方法便有可能直接恢复出其精确解析公式。
3165
热度
许愿开讲
PDF
解读
Learning is Forgetting: LLM Training As Lossy Compression
2026年04月08日
尽管大语言模型(LLMs)的应用日益广泛,我们对其表征空间的内在结构仍缺乏深入理解。这种认知局限制约了我们对模型“学到了什么”以及“如何学习”的解释能力,也阻碍了将其学习机制与人类学习过程进行有意义的类比和关联。我们认为,大语言模型本质上是一种有损压缩系统:在训练过程中,模型仅保留训练数据中与其优化目标(或多个目标)相关的信息,而舍弃其余部分。我们发现,预训练过程促使模型逐步逼近“下一序列预测”任务下的最优压缩状态,并趋近信息瓶颈(Information Bottleneck)理论所界定的压缩下界。在一系列开源权重模型中,不同模型展现出差异化的压缩特性,这很可能源于其训练数据构成与训练策略(training recipes)的差异。然而,即便跨越不同架构族系的大语言模型,其压缩的最优性程度——即模型在多大程度上实现了信息瓶颈意义上的高效压缩——以及模型内部所保留信息的丰富性与质量,均能稳健地预测其在大量下游基准测试中的性能表现。由此,我们得以直接建立表征结构与模型实际性能之间的可解释、可操作的联系。总体而言,本研究提出了一种统一的信息论框架,用以刻画此类模型的学习机制;该框架不仅具有坚实的理论基础,而且具备在大规模模型上实际部署与应用的可行性。
378
热度
许愿开讲
PDF
解读
A mathematical theory of evolution for self-designing AIs
2026年04月06日
随着人工智能系统(AI)日益通过递归式自我改进而产生,一种新型的“演化”过程可能随之出现:AI系统的各项特性将由早期AI在设计并传播其后代方面的成功程度所塑造。生物学演化如何塑造行为性状,已有丰富而成熟的数学理论加以建模;其中的核心成果之一是费希尔自然选择基本定理(Fisher’s fundamental theorem of natural selection),该定理刻画了种群平均适应度(即繁殖成功率)得以提升所需满足的条件。然而,AI的演化将与生物演化存在根本性差异:DNA突变本质上是随机的,且大致可逆;而AI的自我设计则具有高度的目的性和方向性。本文构建了一个面向自我设计型AI的演化数学模型,用一棵有方向性的、涵盖潜在AI设计方案的“设计树”,取代了传统演化模型中基于随机游走的突变过程。在此模型中,当前AI负责设计其后代,而人类则掌控着一个分配资源的“适应度函数”。我们证明,在此框架下,若无额外假设,适应度并不必然随时间推移而上升;但若进一步假定适应度存在上界,并满足额外的“η-锁定”(η-locking)条件,则适应度将逐渐集中于所能达到的最大值。我们进而探讨该结论对AI对齐(AI alignment)问题的重要启示,尤其关注适应度与人类效用之间并非完全一致的情形。我们指出:倘若欺骗人类评估者能为AI带来超出其真实能力的、可加性的适应度增益,则演化过程将同时选择出更强的能力与更精巧的欺骗行为。这一风险可通过将AI的“繁殖”机制建立在纯客观标准之上(而非依赖人类主观判断)而得到缓解。
264
热度
许愿开讲
PDF
解读
Splat the Net: Radiance Fields with Splattable Neural Primitives
2025年10月09日
辐射场已成为建模三维场景外观的主流表示方法。以神经辐射场(Neural Radiance Fields)为代表的神经化建模方法虽具备强大的表达能力,但其渲染过程依赖计算开销高昂的光线步进(ray marching);而以三维高斯点绘(3D Gaussian Splatting)为代表的基于图元的方法则通过点绘(splatting)实现实时渲染效率,却在表征能力上有所妥协。受上述两类方法最新进展的启发,我们提出了“可点绘的神经图元”(splattable neural primitives)——一种新型体素化表示方法,旨在兼顾神经模型的强表达力与基于图元点绘的高效性。每个图元均编码一个有界神经密度场,该密度场由一个浅层神经网络参数化。我们的建模形式支持对线积分进行精确的解析求解,从而能够高效地计算符合透视投影原理的点绘核(splatting kernel)。正因如此,该表示方法可在视线方向上直接沿射线完成积分,无需依赖计算繁重的光线步进。此外,这些图元能灵活适应场景几何结构;且相较于以往的解析型图元尺寸更大,因而单个场景所需图元数量显著减少。在新视角合成基准测试中,本方法在重建质量与渲染速度两方面均达到与三维高斯点绘相当的水平,同时仅需其十分之一的图元数量和六分之一的参数量。上述优势完全源于该表示方法自身的内在设计,无需借助复杂的控制机制或自适应框架。项目主页为:https://vcai.mpi-inf.mpg.de/projects/SplatNet/。
255
热度
许愿开讲
PDF
解读
Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation
2025年07月14日
扩大语言模型的规模能够释放出令人印象深刻的能力,但随之而来的计算和内存需求也使得训练和部署成本高昂。现有的效率优化方法通常要么专注于参数共享,要么采用自适应计算策略,但如何同时实现这两方面的效率仍是一个未解的问题。我们提出了“递归混合”(Mixture-of-Recursions,MoR)这一统一框架,将参数共享与自适应计算两个效率维度融合在一个统一的递归Transformer结构中。MoR在不同的递归步骤中复用一组共享的层堆栈,从而实现参数效率,同时通过轻量级路由模块,在每个token层面实现自适应的“思考”深度,动态地为不同token分配不同的递归层数。这使得MoR仅在处于特定递归深度的活跃token之间进行二次复杂度的注意力计算,并通过仅缓存这些token的键值对(KV)来进一步提升内存访问效率。除了这些核心机制外,我们还提出了一种KV共享变体,复用首次递归中的键值对,专门用于降低prefill阶段的延迟和内存占用。在从1.35亿到17亿参数的不同模型规模上,MoR构建了一个新的帕累托前沿:在训练计算量相同甚至模型更小的情况下,MoR显著降低了验证集困惑度,提升了少样本准确率,同时相比普通模型和现有的递归基线模型,实现了更高的吞吐量。这些优势表明,MoR为在不承担大规模模型成本的前提下实现大模型质量提供了一条有效的路径。
247
热度
许愿开讲
PDF
解读
The Myth of Expert Specialization in MoEs: Why Routing Reflects Geometry, Not Necessarily Domain Expertise
2026年04月10日
混合专家(MoE)架构如今已广泛应用于大语言模型中,但其背后“专家专业化”现象的发生机制仍缺乏深入理解。我们指出:由于MoE中的路由模块本质上是线性映射,隐状态之间的相似性既是专家使用模式相似性的必要条件,也是充分条件;因此,专家专业化实为表征空间中自然涌现的性质,而非路由架构本身所固有的特性。我们在五个预训练模型上,分别从词元(token)和序列(sequence)两个粒度验证了这一结论。此外,我们进一步证明,负载均衡损失(load-balancing loss)会主动抑制隐状态中共享的方向分量,从而维持路由结果的多样性;这一机制或许可为“在数据多样性不足(例如小批量训练)时出现的专业化崩溃(specialization collapse)”提供理论解释。尽管上述分析给出了清晰、自洽的机制性解释,我们却发现预训练MoE中的专业化模式极难被人理解:当不同模型回答同一问题时,其各自主动调用的专家集合之间的重叠率,并不高于回答两个完全无关问题时的重叠率(均约为60%);提示层面(prompt-level)的路由选择无法预测实际推理展开(rollout-level)过程中的路由行为;尤其在推理类模型中,深层网络对语义上毫不相关的输入,竟展现出近乎完全一致的专家激活模式。我们最终得出结论:尽管MoE在计算效率方面的优势已得到充分认识,但要真正理解专家专业化现象,其难度至少等同于理解大语言模型隐状态空间的几何结构——而这正是文献中长期悬而未决的基础性难题。
176
热度
许愿开讲
PDF
解读
Rays as Pixels: Learning A Joint Distribution of Videos and Camera Trajectories
2026年04月10日
从图像中恢复相机参数,以及基于新视角渲染场景,长期以来在计算机视觉与图形学领域被视为两个彼此独立的任务。然而,当图像覆盖稀疏或相机位姿存在歧义时,这种人为划分便不再成立,因为每个任务都依赖于另一个任务所输出的结果。我们提出了“光束即像素”(Rays as Pixels)方法,这是一种视频扩散模型(Video Diffusion Model, VDM),旨在学习视频与相机运动轨迹的联合概率分布。我们将每一台相机表示为稠密的光线像素(即“raxels”,ray pixels 的合成词),并借助解耦式自注意力-交叉注意力(Decoupled Self-Cross Attention)机制,对 raxels 与视频帧进行联合去噪。单个训练完成的模型即可统一处理三项任务:(1)根据输入视频预测相机运动轨迹;(2)根据输入图像联合生成视频及对应的相机轨迹;(3)根据输入图像、沿指定目标相机轨迹生成视频。由于该模型既能从视频中预测轨迹,又能依据自身预测的轨迹条件化地生成新视角画面,我们通过一种闭环式自洽性测试(closed-loop self-consistency test)对其性能展开评估,结果表明其前向预测(视频→轨迹)与逆向预测(轨迹→视频)高度一致。值得注意的是,轨迹预测所需的去噪步数远少于视频生成——仅需极少几步去噪即可实现良好的自洽性。我们在位姿估计与相机控制的视频生成任务上报告了相关实验结果。
174
热度
许愿开讲
PDF
解读
Deep Learning for Sequential Decision Making under Uncertainty: Foundations, Frameworks, and Frontiers
2026年04月13日
人工智能(AI)正日益超越单纯的预测功能,转而支持在复杂、不确定且动态变化的环境中进行决策。这一转变自然地与运筹学与管理科学(OR/MS)形成交汇——后者长期以来为不确定性条件下的序贯决策提供了坚实的理论框架与方法论基础。与此同时,深度学习领域的最新进展(包括前馈神经网络、长短期记忆网络(LSTM)、Transformer架构以及深度强化学习等)显著拓展了数据驱动建模的应用边界,并为构建大规模决策系统开辟了全新可能。本教程立足于运筹学与管理科学的视角,系统阐述深度学习在不确定性环境下支撑序贯决策中的作用。其核心观点是:深度学习的价值不在于取代优化方法,而在于与之互补——深度学习赋予模型强大的适应能力与可扩展的函数逼近能力,而运筹学与管理科学则提供刻画约束条件、调整机制(recourse)及不确定性所必需的结构化严谨性。教程首先梳理关键的决策理论基础,继而将其与当代人工智能主流神经网络架构建立对应关联,并深入探讨学习与优化相融合的前沿方法。此外,教程还重点介绍了该交叉方向在供应链管理、医疗健康与疫情响应、农业、能源以及自主运行等领域的新兴应用与实际影响。更广义而言,本教程将上述发展置于人工智能从“预测型”向“决策型”演进的整体范式转型之中,并强调运筹学与管理科学在塑造下一代“学习–优化”深度融合系统过程中所发挥的关键引领作用。
152
热度
许愿开讲
PDF
解读