每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
From AGI to ASI
2026年06月10日
过去十年间,构建人类水平的人工通用智能(AGI)已从遥不可及的臆想,转变为众多顶尖人工智能机构明确设定的“未来十年”核心目标。实现这一目标将对人类社会产生深刻而广泛的影响,由此引出大量亟待解答的复杂问题。本报告聚焦于后AGI时代人工智能自身的发展路径,探讨其如何沿着机器智能连续谱持续演进。该连续谱的终点——“通用人工智能”(Universal AI)——在理论上已有较为扎实的理解,这为本报告的核心议题提供了形式化基础:即从人类水平的AGI向人工通用超级智能(ASI)的过渡过程;直观而言,ASI指一种在智能水平与认知能力上全面超越大型人类组织的系统。在对ASI进行界定之后,本报告梳理了从AGI迈向ASI的四条潜在路径:AGI的规模扩展、人工智能范式的根本性转变、递归式自我改进,以及由大规模多智能体协同系统自然涌现ASI。随后,报告进一步分析了上述各路径中可能存在的摩擦阻力与关键瓶颈。判断这些阻力的影响究竟微乎其微还是举足轻重,本身便引出了若干亟待深入探索的具体开放性研究问题。鉴于预测ASI发展进程存在巨大不确定性,我们无法排除人工智能进步在未来数年内持续加速的可能性。这意味着,社会普遍设想的“人类水平AGI一经问世,便引发单一、突变式社会变革”的图景,或许并不准确;更贴切的前景反而是:人工智能赋能下的科学与技术各领域接连取得突破与进展,从而催生一系列渐次展开、相互交织的变革性社会转型。应对这一前景,需要一场覆盖全球、高度跨学科的宏大协作努力,其广度与重要性前所未有。
935
热度
许愿开讲
PDF
解读
RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation
2026年06月10日
在线策略自蒸馏(OPSD)通过将模型自身的输出分布与其在“特权上下文”(通常为经验证正确的解答)下生成的分布对齐,为推理模型提供密集、细粒度的词元级监督信号。然而,我们发现,该分布差异所生成的学习信号主要集中于风格类词元,而非承载任务语义的关键词元;这是因为模型在获得提示后倾向于生成更直接、更简短的输出。我们将这一缺陷称为“特权诱导的风格偏移”(privilege-induced style drift),它会导致训练过程不稳定,或使模型响应长度持续缩减。为解决此问题,我们提出**RLCSD**(结合对比学习的在线策略自蒸馏,Reinforcement Learning with Contrastive on-policy Self-Distillation):该方法通过对比模型在正确提示与错误提示两种条件下教师—学生分布间的差距,抑制了“仅因施加提示”本身(无论提示是否正确)所引发的风格偏移,从而生成一种更聚焦于任务相关词元的学习信号。我们在Qwen3系列模型(1.7B/4B/8B)及Olmo-3-7B-Think模型上开展了涵盖数学与逻辑推理任务的实验,结果表明,RLCSD在各项指标上均持续优于GRPO及此前各类OPSD方法。进一步地,我们证实对比学习这一原则具有普适性:它可无缝融入现有OPSD方法以提升其性能;其核心思想亦可自然推广至更广泛的跨模型在线策略蒸馏场景。
437
热度
许愿开讲
PDF
解读
Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?
2026年03月25日
自蒸馏已成为大语言模型(LLM)训练后优化的一种有效范式,通常能在提升性能的同时缩短推理路径。然而,在数学推理任务中,我们却发现:尽管自蒸馏确实能缩短模型输出的响应长度,却反而导致性能下降。我们将这一性能退化现象归因于“认知性言语表达”(epistemic verbalization)——即模型在推理过程中对自身不确定性的显式表述——受到了抑制。通过一系列受控实验,我们系统地调节教师模型所依赖的上下文信息丰富度与任务覆盖范围,结果表明:当教师模型被置于高度丰富的条件信息下进行训练时,其不确定性表达倾向显著减弱;这虽有助于在有限任务覆盖范围内快速实现领域内性能优化,却严重损害了模型在分布外(OOD)场景下的泛化能力——而在面对未见过的新问题时,恰恰需要模型主动表达不确定性,并据此动态调整推理策略。我们在Qwen3-8B、DeepSeek-Distill-Qwen-7B以及Olmo3-7B-Instruct三种模型上均观察到最高达40%的性能下降。本研究揭示:恰当地暴露模型的不确定性,对构建鲁棒的推理能力至关重要;同时也强调,推理行为的优化不应止步于简单强化“正确答案路径”,而更需关注推理过程本身的合理性与适应性。
437
热度
许愿开讲
PDF
解读
Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning
2026年06月09日
基于可验证奖励的强化学习(RLVR)已成为提升大语言模型(LLM)推理能力的标准方法。然而,当前主流的、基于PPO风格的信任域机制仍采用“位置无关”设计,即对所有词元(token)统一施加相同的约束阈值,且各词元彼此独立。这种逐点式处理方式与自回归生成过程在两个关键方面存在根本性冲突: 首先,统一阈值忽视了自回归过程固有的不对称性——早期生成阶段的微小偏差会引发后续序列层面的级联漂移;静态阈值因而无法充分约束早期偏离,却反而过度抑制后期阶段的必要探索。 其次,孤立地评估单个词元层面的偏离程度,忽略了前缀(prefix)累积漂移的影响:无论当前条件历史(conditioning history)相对于 rollout 策略已偏离多远,该方法始终为每个词元分配相同的偏离容限。 为克服这一局限,我们提出 CPPO(累积前缀漂移策略优化),一种面向词元级的掩码规则,通过两种协同机制,使策略更新严格满足有限视野下的策略改进界。其一,采用位置加权阈值:对影响更持久的早期位置施加更严格的约束,而对晚期词元则适度放宽限制;其二,引入累积前缀预算(cumulative prefix budget):动态追踪历史生成过程中已发生的偏离总量,并据此实时收紧后续词元的允许偏离幅度,从而防止前缀方向上的误差持续累积放大。实验结果表明,CPPO 显著提升了训练稳定性,并在多种模型规模下大幅改善了推理准确率。
273
热度
许愿开讲
PDF
解读
Evaluating Large Language Models in Scientific Discovery
2025年12月17日
大型语言模型(LLM)正越来越多地应用于科学研究,然而当前主流的科学评测基准往往只考察脱离实际情境的知识,忽视了推动科学发现所必需的迭代式推理、假设生成以及对观测结果的解释能力。为此,我们提出了一种基于真实研究场景的评测基准,涵盖生物学、化学、材料学和物理学等领域:由领域专家设定具有真实科研价值的研究项目,并将其分解为若干模块化的研究场景,从中抽取经过审核的问题进行评估。该框架从两个层面评估模型表现:(i)在与具体场景绑定的问题上的回答准确率;(ii)在完整项目层面的能力,即模型需能提出可验证的假设、设计模拟或实验,并对结果进行解读。将这一两阶段的科学发现评估(SDE)框架应用于最先进的大语言模型后发现,相较于通用科学评测基准,这些模型在SDE中的表现存在持续的性能差距,且随着模型规模扩大和推理能力增强,性能提升趋于平缓;同时,来自不同厂商的顶尖模型均暴露出系统性的共性缺陷。由于各研究场景中模型表现差异显著,导致在不同科学发现项目中表现最优的模型也各不相同,这表明目前所有大语言模型距离实现通用科学“超级智能”仍有很大距离。尽管如此,大语言模型已在多种科学发现任务中展现出潜力,甚至在某些子场景得分较低的情况下仍能取得进展,凸显了引导性探索和偶然性在科学发现中的重要作用。该SDE框架为面向科学发现能力的LLM评估提供了可复现的基准,并指明了推动其向科学发现目标发展的切实可行路径。
265
热度
许愿开讲
PDF
解读
Efficient On-Device Diffusion LLM Inference with Mobile NPU
2026年06月11日
扩散式大语言模型(dLLMs)通过并行去噪多个词元(token)来加速文本生成,因而特别适用于对延迟敏感的移动设备推理任务。然而,反复进行去噪操作会在智能手机上引入大量计算开销。移动神经网络处理单元(NPU)虽具备高吞吐量的稠密矩阵运算能力,但要高效利用其硬件特性仍面临诸多挑战:词元提交(token commitment)导致每个计算块的有效工作负载不断缩减;词元修订(token revision)使键值(KV)缓存的复用变得复杂;而受限的NPU可见地址空间则会引发高昂的内存重映射与数据传输开销。 本文提出了llada.cpp——首个面向NPU优化的dLLM移动端推理框架。llada.cpp通过三项关键技术,将dLLM按块划分的推理流程与移动NPU的实际执行特性精准对齐:(1)多块推测解码(Multi-Block Speculative Decoding):在当前计算块解码后期工作负载缩减时,主动引入对未来计算块的推测性词元,以填满NPU计算资源;(2)双路径渐进式修订(Dual-Path Progressive Revision):允许已提交词元在最终稳定前仍可被修订,并通过CPU侧路径刷新不稳定词元,从而避免阻塞NPU上密集型计算的持续执行;(3)交换优化型内存运行时(Swap-Optimized Memory Runtime):紧凑组织NPU可见地址空间布局,并将数据预加载(staging)与NPU计算过程重叠执行,显著降低重映射及数据传输开销。我们实现了llada.cpp这一端到端框架,并在多种硬件平台及不同dLLM负载下对其进行了全面评估。实验结果表明,在启用前缀KV缓存复用的前提下,llada.cpp相较纯CPU基线方案,将LLaDA-8B模型的文本生成延迟降低了17至42倍,同时完全保持了生成质量。
156
热度
许愿开讲
PDF
解读
Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data
2026年04月27日
从高维观测数据中识别系统的动力学状态变量,是整个物理科学领域的一个核心问题。其难点在于:这些状态变量本身不可直接观测,必须在无监督条件下,仅凭原始的高维数据加以推断。本文提出一种名为“动力学对称信息瓶颈”(DySIB, Dynamical Symmetric Information Bottleneck)的方法,用于学习时间序列数据的低维表征;该方法通过最大化过去与未来观测窗口之间的预测互信息,同时惩罚表征的复杂度,来实现学习目标。这一优化目标完全在隐空间(latent space)中进行,无需对原始观测数据进行重构。我们将DySIB应用于一个物理单摆的实验视频数据集——该系统的真实状态空间已知。在学习架构的超参数均由数据自洽地确定的前提下,该方法成功恢复出一个二维表征:其维度、拓扑结构与几何形态均与单摆的相空间完全一致,且所学得的两个坐标轴分别平滑对应于标准的角坐标与角速度坐标。这些结果在一个物理机制明确、特征清晰的实验系统上表明:仅利用隐空间中的预测信息,即可直接从高维观测数据中恢复出具有明确物理解释性的动力学坐标。
153
热度
许愿开讲
PDF
解读
MiniMax Sparse Attention
2026年06月11日
超长上下文能力正日益成为前沿大语言模型(LLM)不可或缺的核心能力:智能体工作流、面向整个代码仓库规模的推理任务,以及持久化记忆等场景,均要求模型能够同时对数十万乃至上百万个词元(tokens)进行联合注意力计算;然而,标准Softmax注意力机制的二次方计算复杂度,使其在实际部署规模下难以承受。为此,我们提出“MiniMax稀疏注意力”(MSA),一种基于分组查询注意力(GQA)构建的分块稀疏注意力机制。该机制包含一个轻量级的索引分支(Index Branch),用于对键值(KV)块进行打分,并为每个GQA分组独立选取Top-k块,从而实现按组定制的稀疏检索,同时保持高效的分块级执行效率;主分支(Main Branch)则仅在被选中的块上执行精确的分块稀疏注意力计算。MSA的设计以“简洁性与可扩展性”为根本原则,结构高度精简,因而能便捷高效地部署于各类GPU硬件平台。为将理论上的稀疏性切实转化为实际加速效果,我们同步设计了配套的GPU执行路径:采用无需指数运算(exp-free)的Top-k选择算法,并结合键值外积稀疏注意力(KV-outer sparse attention),显著提升张量核心(tensor core)在分块粒度访存下的利用率。在具备原生多模态训练能力的1090亿参数模型上,MSA在100万词元上下文长度下,注意力计算量相较GQA降低28.4倍,而模型性能保持完全一致;配合我们协同设计的内核,MSA在H800 GPU上实现了14.2倍的预填充(prefill)速度提升和7.6倍的解码(decoding)端到端时延下降。本推理内核开源地址为:https://github.com/MiniMax-AI/MSA;基于MSA驱动、具备生产级能力且原生支持多模态的模型已正式开源发布,地址为:https://huggingface.co/MiniMaxAI/MiniMax-M3。
111
热度
许愿开讲
PDF
解读
Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems
2026年04月14日
Claude Code 是一款具备自主行为能力的编程辅助工具,可代表用户执行 Shell 命令、编辑文件,并调用外部服务。本研究通过分析其公开发布的 TypeScript 源代码,系统阐述了该工具的整体架构;并进一步将其与 OpenClaw(一个独立开发的开源人工智能代理系统)进行对比——后者虽面向不同部署场景,却在诸多核心设计问题上给出了相似的解答。我们的分析提炼出驱动该架构设计的五大人类价值取向、哲学理念与实际需求:人类决策主导权、安全与保障、执行可靠性、能力增强性,以及情境适应性;并据此追溯出十三条具体的设计原则,进而映射至各项关键技术实现方案。该系统的核心逻辑极为简洁:一个基础的 while 循环,依次调用大语言模型、执行工具函数,再循环往复。然而,系统绝大部分代码并非位于该主循环内部,而是分布于围绕它的各类支撑子系统之中:包括一套拥有七种权限模式并辅以机器学习分类器的细粒度权限控制系统;一条用于上下文管理的五级压缩流水线;四种扩展机制——MCP(Model-Client Protocol)、插件(plugins)、技能(skills)和钩子(hooks);一种支持工作树(worktree)隔离的子代理委托机制;以及一种以追加(append)方式写入的会话存储方案。与 OpenClaw(一个多通道个人助理网关)的对比表明:当部署场景发生变化时,尽管面临相同的一系列反复出现的设计挑战,系统最终呈现的架构形态却显著不同——例如,在安全性方面,从针对单次操作的细粒度安全分类,转向面向整个系统边界的访问控制;在运行时结构上,从单一命令行接口(CLI)循环,演进为嵌入式运行于网关控制平面之内的轻量级运行时;在能力管理上,则从单纯依赖上下文窗口扩展,升级为面向整个网关范围的能力注册与发现机制。最后,我们基于近期实证研究、架构实践及政策文献,归纳出未来智能代理系统亟待探索的六大开放性设计方向。
52
热度
许愿开讲
PDF
解读
Extreme-Scale Atomistic Simulation of Real-Temperature Magnetic Skyrmion Dynamics by Coupled Spin-Lattice Modeling
2026年06月12日
功能材料中真实温度下的拓扑磁动力学行为由晶格与自旋的耦合演化共同决定,然而在器件尺度上仍无法通过预测性模拟加以准确描述。以FeGe中热驱动的螺旋态向斯格明子态转变这一典型过程为例,要解析器件尺度上的拓扑磁结构形成,必须具备原子级分辨率、显式地描述晶格运动,并涵盖微米量级的磁畴尺度。我们构建了一个统一的机器学习框架,将基于自旋约束密度泛函理论训练得到的神经进化势(neuro-evolution potential)与一种保持结构特性的自旋-晶格积分器相结合。该框架通过面向特定硬件架构的优化、内核融合(kernel fusion)、SVE2向量化加速以及考虑非一致性内存访问(NUMA)特性的数据布局设计,相较以往所有考虑自旋效应的模拟方法,实现了高达七个数量级的加速。该程序部署于“线光”(LineShine)超百亿亿次(exascale)超级计算机,在1245万CPU核上实现全规模运行,弱扩展效率达89.7%;可模拟包含1.34万亿个原子及同等数量自旋的超大规模体系,并在双精度下达到48.5 PFLOPS的峰值计算性能。所开展的模拟首次在前所未有的时空尺度上直接揭示了真实温度下斯格明子的成核与重构过程,从而确立了一种全新的预测性模拟范式,用于研究自旋与晶格强耦合条件下的拓扑磁动力学行为。
49
热度
许愿开讲
PDF
解读