每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
2025年06月07日
最近几代语言模型引入了大型推理模型(LRMs),这些模型在提供答案之前会生成详细的思考过程。尽管这些模型在推理基准测试中表现出更好的性能,但其基本能力、扩展特性以及局限性仍然理解不足。当前的评估主要集中在已有的数学和编程基准上,重点在于最终答案的准确性。然而,这种评估范式常常受到污染,并且无法提供对推理轨迹的深入洞察。在这项工作中,我们借助可控的谜题环境系统地研究了这些差距,这种环境能够在保持一致逻辑结构的同时精确操控复杂度。这一设置不仅能够分析最终答案,还能分析内部推理轨迹,从而揭示LRMs是如何思考的。通过广泛的实验,我们发现LRMs在超过一定复杂度后会出现完全的准确率崩溃。此外,它们表现出一种反直觉的扩展限制:随着问题复杂度的增加,其推理努力先增加到某个点,然后即使仍有剩余的计算预算,也会开始下降。通过在同一推理计算条件下将LRMs与其标准LLM对比,我们识别出三种性能模式:(1)低复杂度任务中,标准模型的表现优于LRMs;(2)中等复杂度任务中,LRMs表现出优势;(3)高复杂度任务中,两种模型都面临完全崩溃的情况。我们发现LRMs在精确计算方面存在局限性:它们无法有效使用明确的算法,并且在不同规模的问题上推理表现不一致。我们还进一步研究了推理轨迹,探讨了解决方案的探索模式,并分析了模型的计算行为,从而揭示了它们的优势、局限性,并提出了关于其推理能力的疑问。
3058
热度
许愿开讲
PDF
解读
The Bayesian Geometry of Transformer Attention
2025年12月27日
Transformer模型在上下文中似乎常常表现出贝叶斯推理的行为,但要严格验证这一点一直不可能:真实数据缺乏解析形式的后验分布,而大型模型又将推理与记忆混淆在一起。我们通过构建“贝叶斯风洞”——即后验分布具有闭式解且记忆被证明不可能发生的受控环境——来解决这一问题。在这些设定下,小型Transformer模型能够以10⁻³至10⁻⁴比特的精度复现贝叶斯后验,而容量相当的多层感知机(MLP)则相差数个数量级,从而揭示出明显的架构差异。 在两类任务——双射消去和隐马尔可夫模型(HMM)状态追踪——中,我们发现Transformer通过一种一致的几何机制实现贝叶斯推断:残差流作为信念的载体,前馈网络执行后验更新,而注意力机制则提供基于内容的可寻址路由。几何诊断揭示了正交的关键向量基底、查询与关键向量之间逐步对齐的现象,以及一个由后验熵参数化的低维值空间流形。在训练过程中,该流形逐渐展开,而注意力模式保持稳定,这种“框架—精度分离”现象正是近期梯度分析所预测的结果。 综上所述,这些结果表明,层级化注意力机制通过几何设计实现了贝叶斯推断,从而解释了为何注意力机制不可或缺,以及为何扁平架构会失败。“贝叶斯风洞”为从小型可验证系统出发、机械性地理解大语言模型中观察到的推理现象提供了坚实基础。
2432
热度
许愿开讲
PDF
解读
Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds
2025年12月27日
Transformer 模型在精心构建的“贝叶斯风洞”以及大规模语言模型中,能够实证地执行精确的概率推理,然而基于梯度的学习机制如何形成所需内部几何结构仍不明确。我们对交叉熵训练如何重塑 Transformer 注意力头中的注意力得分和值向量进行了完整的一阶分析。我们的核心结果是一个关于注意力得分的“优势导向路由定律”: \[ \frac{\partial L}{\partial s_{ij}} = α_{ij}\bigl(b_{ij}-\mathbb{E}_{α_i}[b]\bigr), \qquad b_{ij} := u_i^\top v_j, \] 以及一个关于值向量的“责任加权更新”规则: \[ Δv_j = -η\sum_i α_{ij} u_i, \] 其中 \(u_i\) 是位置 \(i\) 处的上游梯度,\(α_{ij}\) 是注意力权重。这些方程共同引发了一个正反馈循环,使得路由机制与内容表征协同专业化:查询会更强地将注意力路由到那些对其误差信号而言高于平均水平的值,而这些值则被使用它们的查询拉向自身方向。我们证明,这种耦合的专业化过程类似于一种双时间尺度的 EM(期望最大化)算法:注意力权重实现 E 步骤(即软性责任分配),而值向量实现 M 步骤(即基于责任加权的原型更新),同时查询和键则调整假设空间的框架。通过受控模拟实验——包括一个粘性马尔可夫链任务,在其中我们将闭式解形式的类 EM 更新与标准 SGD 进行比较——我们展示了最小化交叉熵的相同梯度动态,也会塑造出我们在配套研究中识别出的低维流形,而这些流形正是实现贝叶斯推断的结构基础。这提供了一个统一的图景:优化过程(梯度流)催生了几何结构(贝叶斯流形),而该几何结构反过来支撑了功能实现(上下文内的概率推理)。
2082
热度
许愿开讲
PDF
解读
Olaf: Bringing an Animated Character to Life in the Physical World
2025年12月18日
动画角色的运动方式常常不符合物理规律,其身体比例也往往与典型的行走机器人相去甚远。这为机械结构设计和风格化运动控制的创新提供了理想的平台。本文中,我们借助以动画动作为参考、由强化学习驱动的控制方法,将奥拉夫这一角色真实地带入物理世界。为了营造奥拉夫双脚沿身体移动的视觉错觉,我们在柔软的泡沫裙下隐藏了两条不对称的腿部机构。为了在角色体内容纳执行器,我们在手臂、嘴巴和眼睛部位采用了球面与平面连杆机构。由于行走循环会产生刺耳的接触噪音,我们引入了额外的奖励机制,显著降低了撞击噪声。角色硕大的头部由纤细颈部中的小型执行器驱动,极易因服装隔热而过热,加剧了温升风险。为防止执行器过热,我们将温度值作为额外输入传入控制策略,并设计新的奖励项以确保温度维持在安全范围内。我们在仿真环境和实际硬件上验证了所提出方法的有效性,展示出迄今为止在穿戴式机器人角色中前所未有的逼真表现力。
1460
热度
许愿开讲
PDF
解读
All elementary functions from a single binary operator
2026年03月23日
仅需一个双输入逻辑门,即可实现数字硬件中的全部布尔逻辑运算。然而,在连续数学领域,人们一直未能发现具有类似基础性地位的运算原语:计算正弦(sin)、余弦(cos)、平方根(sqrt)和对数(log)等初等函数,历来都需要多种互不相同的运算操作。本文证明,仅凭一个二元运算符 eml(x, y) = exp(x) − ln(y) 以及常数 1,便足以生成科学计算器所具备的标准全部功能。这其中包括自然常数 e、圆周率 π 和虚数单位 i;基本算术运算——加、减、乘、除及幂运算;以及所有常见的超越函数与代数函数。例如,exp(x) = eml(x, 1),ln(x) = eml(1, eml(eml(1, x), 1)),其余所有运算亦可依此类推、逐一构造。如此简洁而普适的运算符的存在,此前从未被预见;我是通过系统性、穷尽式的搜索发现它的,并以构造性方式严格证明了它足以完备地支撑科学计算器所需的所有基本运算。在 EML(指数减对数)形式下,每一个此类表达式均表现为由完全相同节点构成的二叉树,从而导出极为简明的文法:S → 1 | eml(S, S)。这种高度统一的结构还为基于梯度的符号回归提供了便利:我们将 EML 二叉树作为可训练电路,采用标准优化器(如 Adam)进行训练,实验证明,在树深度不超过 4 的较浅层级下,即可从纯数值数据中精确还原出闭合形式的初等函数表达式。同一架构亦可拟合任意数据;但当数据的真实生成规律本身属于初等函数范畴时,该方法便有可能直接恢复出其精确解析公式。
1279
热度
许愿开讲
PDF
解读
Self-Distillation Enables Continual Learning
2026年01月27日
持续学习——即让模型在习得新技能与新知识的同时,不损害其已有能力——仍是基础模型面临的一项根本性挑战。虽然“在线策略”强化学习(on-policy reinforcement learning)有助于缓解遗忘问题,但它依赖于显式的奖励函数,而这类函数往往难以获得。相比之下,从专家示范中学习成为主要的替代方案,但当前主流方法是监督式微调(SFT),而该方法本质上属于“离线策略”(off-policy)。为此,我们提出“自蒸馏微调”(Self-Distillation Fine-Tuning, SDFT)——一种简洁有效的方法,可直接基于专家示范实现在线策略学习。SDFT借助上下文内学习(in-context learning)机制,将经过示范样本条件化(demonstration-conditioned)的模型自身作为教师模型,从而生成符合在线策略要求的训练信号:既可保留模型已有的能力,又能有效习得新技能。在技能学习与知识获取等各类任务上,SDFT始终优于监督式微调(SFT),不仅在新任务上的准确率更高,而且显著缓解了灾难性遗忘现象。在序列式持续学习实验中,SDFT使单个模型能够随时间逐步积累多项技能,且全程未出现性能退化;这表明,基于在线策略的蒸馏方法是一条切实可行的路径,可推动模型真正实现从示范数据出发的持续学习。
1000
热度
许愿开讲
PDF
解读
Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
2026年01月26日
知识蒸馏通过将教师大语言模型(LLM)的知识压缩并迁移至更小的LLM中,从而提升其推理能力。在线策略蒸馏(on-policy distillation)进一步推进了这一范式:它让学生模型自主采样自身的推理轨迹,同时由教师LLM提供细粒度的词元级监督信号,从而缓解了离线策略蒸馏(off-policy distillation)方法中普遍存在的训练与推理阶段分布不匹配问题。然而,现有在线策略蒸馏方法通常需依赖一个独立的、往往规模更大的教师LLM,且未能显式利用推理数据集中已有的真实答案(ground-truth solutions)。受以下直觉启发——即一个能力足够强的LLM能够基于外部提供的、具有特权性质的推理过程(privileged reasoning traces)进行理性推断,并以此指导自身较弱版本(即无法访问该特权信息的版本)的学习——我们提出了“在线策略自蒸馏”(On-Policy Self-Distillation, OPSD)框架。在该框架中,单个模型同时承担教师与学生的双重角色,其区别仅在于所接收的上下文输入不同:教师策略以特权信息(例如经验证正确的推理过程)为条件,而学生策略仅以原始问题为输入;训练目标则是在学生模型自主生成的推理轨迹上,最小化教师与学生在每个词元位置上的概率分布之间的散度。我们在多个数学推理基准测试上验证了本方法的有效性:相比GRPO等强化学习方法,OPSD实现了4–8倍的词元利用效率提升;同时,在性能上也显著优于各类离线策略蒸馏方法。
790
热度
许愿开讲
PDF
解读