每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes
2026年01月26日
典型的针对大语言模型(LLM)推理任务的强化学习(RL)方法,在处理困难问题时存在计算资源浪费:此时正确的“在线策略”(on-policy)推理轨迹极为稀少,策略梯度趋于消失,学习过程随之停滞。为启动更高效的强化学习,我们考虑复用过往采样过程中消耗的计算量(即先前推理或强化学习训练中产生的“离线策略”(off-policy)轨迹)。然而,标准的离线策略方法直接以离线策略数据作为监督信号,容易在强化学习优化过程中引发训练不稳定。为此,我们提出 **PrefixRL** 方法:该方法以成功离线策略轨迹的前缀(prefix)为条件,再通过在线策略强化学习来完成后续推理——从而完全规避了离线策略训练固有的不稳定性。PrefixRL 通过对离线策略前缀长度进行调节,动态控制问题难度,从而显著增强困难问题上的学习信号。我们从理论上证明,PrefixRL 的优化目标不仅与标准强化学习目标一致,而且具备更高的样本利用效率。实验中,我们还发现一种新颖现象——“反向泛化”(back-generalization):仅在带前缀的问题上训练,模型却能泛化至分布外(out-of-distribution)的、无前缀的原始问题,并且其习得的推理策略往往与所给前缀中体现的策略截然不同。在具体实验中,我们采用基础模型(base model)结合拒绝采样(rejection sampling)生成离线策略轨迹,由此构建起一个自增强(self-improvement)闭环。在困难推理任务上,PrefixRL 达到与最强基线方法(先对离线策略数据进行监督微调(SFT),再开展强化学习)同等训练奖励的速度快出 2 倍——这一加速效果已计入初始拒绝采样所消耗的全部算力;同时,其最终奖励提升达 3 倍。这些增益可迁移至未参与训练的基准测试集;此外,即使离线策略轨迹来源于不同模型家族,PrefixRL 依然保持有效,充分验证了该方法在实际应用中的灵活性与鲁棒性。
595
热度
许愿开讲
PDF
解读
Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning
2025年04月04日
大型语言模型 (LLMs) 在需要复杂推理的广泛任务中展现了卓越的能力。然而,规模扩展对其推理能力的影响仍不够清晰。在本文中,我们引入了一种合成的多步推理环境,旨在紧密复制现实世界大规模知识图谱的结构和分布。我们的推理任务涉及填补知识图谱中的缺失边,这需要高级的多步推理能力,并且模拟了现实世界的推理场景。为此,我们从头开始预训练语言模型 (LMs),仅使用不完整图谱中的三元组数据,并评估这些模型推断缺失边的能力。有趣的是,我们观察到过度参数化可能会因过多的记忆化而损害推理性能。我们研究了影响这种 U 型损失曲线的各种因素,包括图结构、模型大小和训练步数。为了预测适用于特定知识图谱的最佳模型大小,我们发现了一种经验性的缩放规律,该规律可以将知识图谱的搜索熵线性映射到最佳模型大小。本研究为规模扩展与 LLM 推理能力之间的关系提供了新的见解,并揭示了优化其在推理任务中性能的可能方法。
239
热度
许愿开讲
PDF
解读
Excited Pfaffians: Generalized Neural Wave Functions Across Structure and State
2026年03月15日
变分蒙特卡洛(VMC)中的神经网络波函数已在高精度表征基态与激发态方面取得巨大成功。然而,若要使不同量子态之间的重叠积分达到足够的数值精度,就必须随所考虑的态数增加而相应提升蒙特卡洛采样数,从而导致计算成本显著上升。为此,我们提出一种近乎恒定采样规模的新方法——多态重要性采样(Multi-State Importance Sampling, MSIS),该方法利用所有量子态共同产生的样本,来估计任意两个态之间的两两重叠积分。为高效地对所有样本同时评估全部量子态,我们引入了“激发Pfaffian”(Excited Pfaffians)这一新型波函数结构。该结构受哈特里–福克(Hartree–Fock)理论启发,可在单个神经网络中统一表征多个量子态。此外,“激发Pfaffian”本身亦可作为广义波函数使用,使单一模型能够刻画多态势能面。在碳二聚体(C₂)体系上,我们的方法在保持与自然激发态相同、随态数 \(N_s\) 呈四次方增长(即 \(O(N_s^4)\))的标度律的同时,训练速度提升逾200倍,并能建模比以往多50%的激发态。得益于优异的计算复杂度标度特性,我们成为首个借助神经网络完整求解铍原子(Be)所有不同能级的研究团队。最后,我们进一步证实:单个波函数即可跨多种分子体系,统一表征其各自的激发态。
199
热度
许愿开讲
PDF
解读
V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think
2026年04月25日
如何将去噪生成模型与人类偏好或可验证的奖励信号对齐,仍是当前一大关键挑战。尽管基于策略梯度的在线强化学习(RL)为模型后训练提供了一个原理清晰的框架,但其直接应用却受限于这类模型难以计算的似然函数。因此,先前工作要么在采样轨迹上优化一个构建出的马尔可夫决策过程(MDP),该方法虽稳定但效率低下;要么采用基于扩散模型证据下界(ELBO)的似然代理目标函数,但该类方法迄今在视觉生成任务上表现欠佳。我们的核心洞见在于:基于ELBO的方法实际上完全可兼具稳定性与高效性。通过降低代理目标函数的方差并合理控制梯度更新步长,我们证明该方法能够超越基于MDP的方法。为此,我们提出了变分型组相对策略优化算法(Variational GRPO,简称V-GRPO):该方法将基于ELBO的代理目标函数与组相对策略优化(GRPO)算法有机结合,并辅以一系列简洁而关键的技术改进。本方法易于实现,与预训练目标高度一致,且规避了基于MDP方法的固有局限。在文本到图像合成任务中,V-GRPO达成了当前最优性能;相较于MixGRPO,其训练速度提升2倍;相较于DiffusionNFT,则提速达3倍。
179
热度
许愿开讲
PDF
解读
AgentPulse: A Continuous Multi-Signal Framework for Evaluating AI Agents in Deployment
2026年04月27日
静态基准测试仅能衡量人工智能代理在某一固定时间点所具备的能力,却无法反映其在实际部署过程中的采纳情况、维护状况及用户体验。为此,我们提出 AgentPulse——一种持续性评估框架,该框架从 GitHub、软件包注册中心、集成开发环境(IDE)应用市场、社交平台以及各类基准测试排行榜等五大数据源中,实时采集 18 类信号,并据此对 50 个 AI 代理在 10 类工作负载场景下的表现进行评分,涵盖四大维度:基准测试性能(Benchmark Performance)、采纳信号(Adoption Signals)、社区情绪(Community Sentiment)和生态健康度(Ecosystem Health)。 本框架的合理性通过三项实证分析予以支撑: 第一,上述四大维度所捕捉的信息总体上具有高度互补性(样本量 n = 50; Adoption 与 Ecosystem 维度间的最大斯皮尔曼相关系数 ρₘₐₓ = 0.61,其余所有维度两两之间的 |ρ| 均 ≤ 0.37); 第二,在控制循环性影响的前提下开展的验证测试(n = 35)表明,由“基准测试性能”与“社区情绪”构成的子综合指标(该指标未纳入任何源自 GitHub 的信号),能够显著预测其本身并未聚合的外部采纳代理指标:GitHub 星标数(ρₛ = 0.52,p < 0.01)与 Stack Overflow 上相关问题数量(ρₛ = 0.49,p < 0.01);此外,VS Code 安装量(ρₛ = 0.44,p < 0.05)亦作为示例性结果一并报告——需说明的是,该子集中仅有 11 个代理的 VS Code 安装量为非零值; 第三,在拥有公开 SWE-bench 得分的 11 个代理构成的子集(n = 11)中,整体综合排名与仅基于基准测试得分的排名几乎不相关(ρₛ = 0.25),且其中 9 个代理在两类排名中的位次变动至少达 2 名;这一现象主要源于该子集中闭源、高能力代理普遍存在“采纳度”与“能力水平”之间的强负相关关系。正因如此,我们选择将框架有效性的论证基础建立在更广泛、更具代表性的 n = 35 样本测试之上,而非局限于与 SWE-bench 重叠的这 11 个代理。 AgentPulse 的核心价值在于揭示了现有基准测试所遗漏的关键部署信号;它本质上是一种评估方法论,而非提供某种绝对权威的“真实排名”。本框架本身、全部采集的原始信号、各项评分结果以及配套的评估工具套件,均已依据知识共享署名 4.0 国际许可协议(CC BY 4.0)开源发布。
162
热度
许愿开讲
PDF
解读
Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL
2026年02月03日
那些能够突破训练预算限制、持续自我提升的大语言模型(LLMs),可通过在测试阶段动态调整自身行为来求解日益复杂的问题,我们称这一能力为“外推能力”(extrapolation)。然而,标准的强化学习(RL)方法仅在固定的问题分布和固定的训练预算下运行,因而难以应对测试阶段出现的分布偏移,从而严重制约了模型的外推能力。为解决这一问题,我们提出了RC(Reasoning Chain)——一种迭代式解码算法,它在训练与推理两个阶段均替代了传统的自回归式解码。RC充分利用大语言模型在响应生成能力与摘要生成能力之间存在的固有不对称性,构建出可随迭代轮次持续优化的推理链。经RC训练的模型,其推理跨度(reasoning horizon)可外推至远超训练阶段所见长度一个数量级以上的水平,并在此过程中实现持续性能提升。实证结果表明:在仅使用16K token训练预算的情况下,对一个40亿参数(4B)的模型采用RC进行训练,其在HMMT 2025基准测试上的准确率可从40%显著提升至近70%(测试时消耗0.5M token),不仅大幅超越同规模的对比模型,甚至优于众多参数量更大的专用推理型大语言模型。最后,我们还发现:得益于训练过程中习得的、更优的“基于摘要的条件生成”(summary-conditioned generation)能力,经RC训练的模型能更高效地利用现有推理框架(scaffolds),从而进一步拓展其测试阶段的性能上限。
132
热度
许愿开讲
PDF
解读
Attention Residuals
2026年03月16日
现代大语言模型(LLM)普遍采用带前置归一化(PreNorm)的残差连接,但其标准做法是将各层输出以固定的单位权重进行累加。这种均匀聚合方式会导致隐藏状态的幅值随网络深度增加而无约束地增长,进而逐步削弱每一层对最终表示的实际贡献。为此,我们提出“注意力残差”(Attention Residuals,简称 AttnRes),用基于前序各层输出的 softmax 注意力机制取代原有的固定权重累加方式,使每一层能够依据输入内容自适应地学习权重,有选择性地聚合更早层的表征。 为应对大规模模型训练中对全部前序层输出进行注意力计算所带来的显存与通信开销,我们进一步提出“分块注意力残差”(Block AttnRes):该方法将网络层划分为若干块,在块级别上构建并聚合表征,从而显著降低显存占用,同时保留绝大部分完整 AttnRes 所带来的性能增益。结合基于缓存的流水线通信机制与两阶段计算策略,Block AttnRes 成为一种实用、即插即用的标准残差连接替代方案,仅引入极小的额外开销。 缩放律(scaling law)实验表明,AttnRes 带来的性能提升在不同规模的模型上均保持一致;消融实验则验证了“依赖输入内容、沿深度方向动态选择”的机制确为关键收益来源。此外,我们将 AttnRes 集成至 Kimi Linear 架构(总参数量 480 亿,激活参数量 30 亿),并在 1.4 万亿 token 上完成预训练。结果表明,AttnRes 有效缓解了 PreNorm 下的表征稀释问题,使得模型各层输出幅值与梯度分布更加均匀,并在所有评估的下游任务上均取得性能提升。
120
热度
许愿开讲
PDF
解读
Hyperloop Transformers
2026年04月23日
大语言模型(LLM)架构研究通常旨在固定计算量或延迟预算的前提下,最大化模型性能。然而,许多实际应用场景——例如边缘设备与终端设备上的部署——还额外受到模型内存占用的严格限制,因此亟需参数更高效的语言建模架构。本文提出一种简洁的架构设计,显著提升了大语言模型的参数利用效率。该架构以“循环式Transformer”(looped Transformer)为核心基本单元:它通过在深度方向上复用同一组Transformer层,从而相比同等深度的传统Transformer大幅减少参数量。我们将循环式Transformer划分为三个模块——起始模块(begin block)、中间模块(middle block)和终止模块(end block),其中每个模块本身均由多个Transformer层构成,而仅中间模块在深度方向上被循环应用。此外,我们为中间循环模块引入了“超连接”(hyper-connections,Xie等,2026),将残差流从标量或向量形式扩展为矩阵形式的残差流。超连接仅在每次循环迭代结束后施加,因此新增的参数量与计算开销均极小。在多种模型规模下,我们的“超连接循环式Transformer”(Hyperloop Transformer)均显著优于参数量相当(depth-matched)的传统Transformer基线及mHC Transformer基线,同时参数总量减少约50%。值得注意的是,这一性能优势在模型后训练权重量化(post-training weight quantization)之后依然保持稳定,因而Hyperloop Transformer成为面向内存受限场景的语言建模任务极具吸引力的架构选择。
119
热度
许愿开讲
PDF
解读