每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Reasoning Models Can Be Effective Without Thinking
2025年04月14日
近期的大语言模型显著提升了推理能力,这主要归功于在生成过程中引入了一个显式的、 lengthy 的思考过程。在本文中,我们质疑这种显式思考是否真的必要。通过使用最先进的 DeepSeek-R1-Distill-Qwen 模型,我们发现,通过简单的提示绕过思考过程(记为 NoThinking),可以取得令人惊讶的效果。在控制生成 token 数量的情况下,NoThinking 在七个具有挑战性的推理数据集上表现优于 Thinking,这些数据集涵盖了数学问题求解、形式化定理证明和编程任务,尤其是在低预算设置下更为明显,例如,在 ACM 23 数据集上,使用 700 个 token 时,NoThinking 的表现为 51.3%,而 Thinking 仅为 28.9%。值得注意的是,随着 pass@k 中 k 值的增加,NoThinking 的性能变得更加具有竞争力。基于这一观察,我们展示了并行扩展方法的有效性,即通过 NoThinking 独立生成 N 个输出,并对它们进行聚合。在聚合过程中,当有适用的任务特定验证器时,我们使用这些验证器;如果没有,则采用简单的最佳选择策略,如基于置信度的选择。我们的方法在延迟相似的情况下优于一系列使用 Thinking 的基线方法,并且在延迟显著更长(最多 9 倍)的情况下与 Thinking 方法表现相当。综上所述,我们的研究促使人们重新思考 lengthy 思考过程的必要性,同时也为在低预算或低延迟条件下通过并行扩展实现强大的推理性能提供了一个具有竞争力的参考。
653
热度
PDF
解读
Efficient Architecture for RISC-V Vector Memory Access
2025年04月11日
向量处理器常常因非高效的内存访问而受到影响,尤其是对于跨步(strided)和分段(segment)访问模式。虽然合并跨步访问是一种自然的解决方案,但有效地收集或分散固定跨步的元素仍然具有挑战性。朴素的方法依赖于高开销的交叉开关(crossbars),这些开关可以在内存和寄存器之间重新映射任何字节,但会导致物理设计上的问题。分段操作需要行-列转置,通常通过元素级的原地转置(会降低性能)或基于大缓冲区的批量转置(会产生较高的面积开销)来处理。在本文中,我们提出了EARTH,一种新颖的向量内存访问架构,它通过基于移位的优化技术解决了这些问题。对于跨步访问,EARTH集成了专门的移位网络以实现元素的收集和分散。在将多个访问合并到同一缓存行后,数据通过移位网络在内存和寄存器之间传输,且开销极小。对于分段操作,EARTH采用了一种移位寄存器组,支持直接的列式访问,从而消除了专用的分段缓冲区,同时提供了高性能的原地批量转置功能。基于开源RISC-V向量单元,使用Chisel HDL在FPGA上实现的EARTH显著提升了跨步内存访问的性能,在以跨步操作为主导的基准测试中实现了4倍至8倍的加速。与传统设计相比,EARTH将硬件面积减少了9%,功耗降低了41%,从而大幅提升了向量处理器的性能和效率。
380
热度
PDF
解读
Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?
2025年02月21日
领先的AI公司越来越专注于构建通用型AI代理——这些系统能够自主规划、行动并在几乎所有人 类能够执行的任务中追求目标。尽管这些系统可能非常有用,但不受控制的AI代理对公共安全和 安全构成了重大风险,从恶意行为者的滥用到可能导致不可逆转的人类控制丧失。我们讨论了这 些风险如何源于当前的AI训练方法。实际上,各种场景和实验已经证明了AI代理可能会从事欺 骗行为或追求未由人类操作员指定且与人类利益相冲突的目标,例如自我保护。 遵循预防原则,我们认为有必要寻求更安全但仍具实用性的替代方案,以取代当前以代理为主 导的发展路径。因此,我们提出了一种非代理型AI系统作为进一步发展的核心构建块,这种系 统从设计之初就注重可靠性和安全性,我们称之为“科学家AI”。该系统旨在通过观察来解释世 界,而不是在其中采取行动以模仿或取悦人类。它包括一个生成理论以解释数据的世界模型和 一个用于回答问题的推理机。这两个组件都以明确的不确定性概念运作,以减轻过度自信预测 的风险。 基于这些考虑,“科学家AI”可以用于协助人类研究人员加速科学进步,包括AI安全领域。特 别是,我们的系统可以用作防止那些即使存在风险仍可能被创建的AI代理的安全屏障。最终, 关注非代理型AI可能使我们能够在享受AI创新带来的好处的同时,避免当前发展路径所伴随的 风险。我们希望这些论点能够激励研究人员、开发人员和政策制定者优先选择这条更安全的道 路。
371
热度
PDF
解读
DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments
2025年04月04日
具备网络搜索功能的大型语言模型(LLMs)在深度研究任务中展现了令人印象深刻的潜力。然而,当前的方法主要依赖于两种方式:一种是性能脆弱的手动设计提示(基于提示工程的方法),另一种是在受控的检索增强生成(RAG)环境中使用强化学习(基于RAG的方法),但这些方法都无法捕捉真实世界交互的复杂性。在本文中,我们提出了DeepResearcher,这是第一个全面的框架,用于通过在真实世界环境中扩展强化学习(RL),并结合真实的网络搜索交互,实现基于LLM的深度研究代理的端到端训练。与假设所有必要信息都存在于固定语料库中的基于RAG的方法不同,我们的方法训练代理以应对开放网络中的噪声、无结构和动态特性。我们实现了一种专门的多代理架构,其中浏览代理能够从各种网页结构中提取相关信息,并克服了重大的技术挑战。在开放领域研究任务上的广泛实验表明,DeepResearcher相比基于提示工程的基线方法提升了高达28.9分,相比基于RAG的强化学习代理提升了高达7.2分。我们的定性分析揭示了端到端强化学习训练中出现的认知行为,包括制定计划的能力、从多个来源交叉验证信息、进行自我反思以重新调整研究方向,以及在无法找到明确答案时保持诚实。我们的结果表明,在真实世界的网络环境中进行端到端训练不仅是一个实现细节,更是开发与实际应用对齐的强大研究能力的根本要求。我们已在 https://github.com/GAIR-NLP/DeepResearcher 开源了DeepResearcher。
339
热度
PDF
解读