每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent
2025年08月11日
Transformer 在多步推理任务中展现出了卓越的能力。然而,对于它们通过训练获得这些能力的底层机制,尤其是从理论角度来看,目前的理解仍然有限。本文研究了 Transformer 如何通过思维链过程来学习解决符号多步推理问题,重点关注树结构中的路径寻找任务。我们分析了两个相互关联的任务:一个是反向推理任务,模型从目标节点输出到根节点的路径;另一个更为复杂的正向推理任务,模型首先识别目标节点到根节点的路径,然后将其反转以生成根节点到目标节点的路径,从而实现两阶段推理。 我们的理论分析基于梯度下降的动力学,表明经过训练的单层 Transformer 可以在理论上保证解决这两个任务,并且能够泛化到未见过的树结构上。特别是我们对正向推理任务的多阶段训练动力学分析,揭示了不同的注意力头如何自主地学习专业化并相互协作,在单一的自回归路径中完成两个子任务。这些结果为训练后的 Transformer 如何执行顺序性的算法过程提供了机制性的解释。此外,它们还为推理能力的产生提供了洞见,表明当任务被设计为需要中间思维步骤时,即使是浅层的多头 Transformer 也能有效解决那些原本需要更深架构才能处理的问题。
834
热度
PDF
解读
A Comparative Survey of PyTorch vs TensorFlow for Deep Learning: Usability, Performance, and Deployment Trade-offs
2025年08月06日
本文对TensorFlow和PyTorch这两个主流深度学习框架进行了全面的对比综述,重点分析了它们在易用性、性能和部署方面的权衡。我们回顾了每个框架的编程范式和开发者体验,比较了TensorFlow基于计算图(现在可选启用即时执行)的方式与PyTorch动态的、贴近Python风格的设计。接着,我们通过多个任务和数据场景下的模型训练速度和推理性能进行比较,依据来自最新的基准测试和研究。我们还深入分析了部署灵活性——从TensorFlow成熟的生态系统(如用于移动端/嵌入式设备的TensorFlow Lite、TensorFlow Serving以及JavaScript支持),到PyTorch较新推出的生产工具(如TorchScript编译、ONNX导出以及TorchServe)。此外,我们还综述了生态系统和社区支持情况,包括库的集成能力、工业界的采纳程度以及研究趋势(例如,PyTorch在近期研究论文中的主导地位,而TensorFlow则在企业级工具方面更为完善)。文章还讨论了在计算机视觉、自然语言处理等领域的应用实例,以展示两个框架在实际中的使用方式。最后,我们展望了深度学习框架设计的未来方向和开放性挑战,例如统一即时执行和图执行模式、提升跨框架的互操作性,以及整合编译器优化技术(如XLA和JIT)以提升运行速度。我们的研究发现,尽管这两个框架在实现最先进深度学习技术方面都非常强大,但它们在设计上存在明显差异:PyTorch在研究领域因其简洁性和灵活性更受青睐,而TensorFlow则提供了更为完整的生产环境生态系统——理解这些权衡对于从业者选择合适的工具至关重要。文中包含了图表、代码片段以及超过20条来自学术论文和官方文档的参考文献,以支持我们的对比分析。
349
热度
PDF
解读
CAI: An Open, Bug Bounty-Ready Cybersecurity AI
2025年04月08日
到2028年,大多数网络安全操作将实现自主化,而人类则负责远程操控。我们首次提出了网络安全领域的自主性等级分类,并介绍了网络安全AI(CAI),这是一个开源框架,通过专业的人工智能代理,使高级安全测试得以普及。通过严格的实证评估,我们证明了CAI在CTF基准测试中始终超越现有最先进技术,在各类挑战中表现出显著更高的效率——在特定任务中比人类快3,600倍,整体平均快11倍。CAI在“AI对人类”CTF现场挑战赛中,在AI团队中排名第一,并在全球范围内获得前20名,赢得了750美元的奖金。基于我们的研究结果,我们认为某些大型语言模型供应商关于其有限安全能力的说法并不准确。除了在网络安全竞赛中的表现,CAI还展示了其在现实世界中的有效性:在短短一周内,它在“Hack The Box”平台上排名西班牙前30、全球前500,同时将安全测试成本平均降低了156倍。我们的框架超越了理论基准,通过模块化的代理设计、无缝的工具集成以及人类监督(HITL),使非专业人士也能以与专家相当的效率发现重大安全漏洞(CVSS评分4.3-7.5)。通过这种方式,CAI填补了市场上的关键空白,为各种规模的组织提供了以前只有资源丰富的公司才能获得的、由AI驱动的漏洞赏金安全测试服务,从而挑战了目前由主要漏洞赏金平台主导的寡头生态系统。
150
热度
PDF
解读
Small Language Models are the Future of Agentic AI
2025年06月02日
大型语言模型 (LLMs) 通常因其在广泛任务中表现出接近人类的表现而受到赞誉,并因其能够进行通用对话的能力而被重视。然而,具有自主代理功能的 AI 系统的兴起,正在带来大量应用场景,在这些场景中,语言模型需要反复执行少量专门化任务,且变化较少。 在此,我们认为小型语言模型 (SLMs) 对于许多代理系统中的调用而言,已经具备足够的能力、本质上更加适合,并且在经济性上是必要的,因此它们将是代理 AI 的未来。我们的论点基于当前 SLMs 所展现的能力水平、代理系统的常见架构以及语言模型部署的经济性。此外,我们认为在需要通用对话能力的情况下,异构代理系统(即调用多个不同模型的代理)是自然的选择。我们还讨论了在代理系统中采用 SLMs 可能面临的障碍,并概述了一种将 LLM 转换为 SLM 的通用代理转换算法。 我们的观点以价值声明的形式表达,强调了即使从 LLMs 部分转向 SLMs,也将对 AI 代理行业产生重要的运营和经济影响。我们希望通过这一讨论推动对 AI 资源有效利用的关注,并努力降低当今 AI 的成本。我们欢迎对我们的观点进行补充或批评,并承诺将所有相关通信发布在 https://research.nvidia.com/labs/lpr/slm-agents。
129
热度
PDF
解读
Continual Learning of Large Language Models: A Comprehensive Survey
2024年04月25日
最近,基于静态、预先收集的通用数据集训练的大型语言模型(LLM)取得了成功,引发了许多研究方向和应用。其中一个方向解决了将预训练的LLM集成到动态数据分布、任务结构和用户偏好中的非常困难的挑战。预训练的LLM在针对特定需求进行调整时,通常会在以前的知识领域中经历显着的性能下降,这种现象被称为“灾难性遗忘”。虽然在连续学习(CL)社区中得到了广泛研究,但它在LLM领域呈现出新的表现形式。在本次调查中,我们提供了关于LLM在CL背景下的当前研究进展的全面概述。本次调查分为四个主要部分:首先,我们描述了连续学习LLM的概述,包括连续性的两个方向:垂直连续性(或垂直连续学习),即从通用到特定能力的连续适应,以及水平连续性(或水平连续学习),即跨时间和领域的连续适应(第3节)。然后,我们总结了现代CL背景下LLM学习的三个阶段:连续预训练(CPT)、领域自适应预训练(DAP)和连续微调(CFT)(第4节)。接下来,我们提供了关于LLM连续学习的评估协议的概述,以及当前可用的数据来源(第5节)。最后,我们讨论了与LLM连续学习相关的有趣问题(第6节)。本次调查中检查的所有论文列表可在https://github.com/Wang-ML-Lab/llm-continual-learning-survey上找到。
78
热度
PDF
解读