每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
2025年06月02日
可验证奖励的强化学习(RLVR)作为一种提升大型语言模型(LLM)推理能力的强大方法已崭露头角,但其机制尚未被充分理解。在本研究中,我们通过全新的标记熵模式视角对RLVR进行了开创性探索,全面分析了不同标记对推理性能的影响。通过考察链式思维(CoT)推理中的标记熵模式,我们发现仅有少量标记表现出高熵特性,而这些高熵标记起到了关键分支点的作用,引导模型走向多样化的推理路径。此外,通过对RLVR训练过程中熵模式演变的研究,我们观察到RLVR主要遵循基础模型的熵模式,主要调整的是高熵标记的熵值。这些发现强调了高熵标记(即分支点标记)对RLVR的重要性。最终,我们通过限制策略梯度更新仅作用于分支点标记,进一步优化了RLVR,并揭示了一个超越80/20法则的现象:仅使用20%的标记即可在Qwen3-8B基础模型上实现与全梯度更新相当的性能,同时在Qwen3-32B基础模型上显著超越全梯度更新(AIME'25提升11.04分,AIME'24提升7.71分),以及在Qwen3-14B基础模型上也有显著提升(AIME'25提升4.79分,AIME'24提升5.21分),体现出强烈的规模效应。相反,若仅针对80%的低熵标记进行训练,则会导致性能明显下降。这些结果表明,RLVR的有效性主要来源于对决定推理方向的高熵标记的优化。总体而言,我们的研究结果表明,通过标记熵的视角可以更好地理解RLVR,并通过利用高熵少数标记来优化RLVR,从而进一步提升LLM的推理能力。
838
热度
PDF
解读
SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics
2025年06月02日
视觉-语言模型(VLMs)在大规模多模态数据集上预训练后,能够编码丰富的视觉和语言知识,这使它们成为机器人技术的强大基础。相比于从零开始训练机器人的策略,近期的方法将VLMs扩展为视觉-语言-动作(VLA)模型,从而实现由自然语言驱动的感知与控制。然而,现有的VLA模型通常规模庞大——往往包含数十亿参数——这导致了高昂的训练成本以及有限的实际部署能力。此外,这些模型依赖于学术界和工业界的数据库,忽略了来自低成本机器人平台的社区收集数据日益增长的可用性。在这项工作中,我们提出了SmolVLA,这是一种小型、高效且由社区驱动的VLA模型,它显著降低了训练和推理成本,同时保持了具有竞争力的性能。SmolVLA被设计为可以在单个GPU上进行训练,并能部署在消费级GPU甚至CPU上。为了进一步提高响应速度,我们引入了一种异步推理框架,将感知和动作预测与动作执行解耦,通过分块的动作生成实现更高的控制频率。尽管其体积小巧,SmolVLA的性能可与规模大十倍的VLA模型相媲美。我们在一系列模拟和真实世界的机器人基准测试中评估了SmolVLA,并开源了所有代码、预训练模型及训练数据。
374
热度
PDF
解读
Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents
2025年05月29日
当今的人工智能系统具有人类设计的固定架构,无法自主且持续地提升自身性能。人工智能的发展本身可以实现自动化,如果能够安全地实现这一点,将加速人工智能的进步,并让我们更早享受到其带来的好处。元学习(Meta-learning)可以自动化发现新的算法,但受限于一阶改进以及需要人为设计合适的搜索空间。哥德尔机(Gödel machine)提出了一种理论上的替代方案:一种能够反复以可证明有益的方式修改自身的自提升人工智能。然而,在实践中,证明大多数修改总体上是有益的是不可能的。 我们引入了达尔文哥德尔机(Darwin Gödel Machine, DGM),这是一种自提升系统,它通过迭代修改自身代码(从而也提升其修改自身代码库的能力),并使用编程基准对每次修改进行经验验证。受达尔文进化论和开放式探索研究的启发,DGM维护了一个生成的编程代理(coding agents)档案库。它通过从档案库中采样一个代理,并利用基础模型(foundation model)创建该采样代理的新颖变体来扩展档案库。这种开放式的探索形成了一棵不断增长的高质量代理树,允许在搜索空间中并行探索许多不同的路径。 实证结果表明,DGM自动提升了其编程能力(例如,更好的代码编辑工具、长上下文窗口管理、同行评审机制),将SWE-bench的性能从20.0%提升至50.0%,Polyglot的性能从14.2%提升至30.7%。此外,与没有自提升或开放式探索的基线方法相比,DGM显著优于后者。所有实验均采取了安全措施(例如,沙盒隔离、人工监督)。DGM是迈向自提升人工智能的重要一步,能够在创新的道路上自行收集关键步骤,开启无尽的创新可能。
181
热度
PDF
解读