AI热门论文

Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent

Transformer 在多步推理任务中展现出了卓越的能力。然而，对于它们通过训练获得这些能力的底层机制，尤其是从理论角度来看，目前的理解仍然有限。本文研究了 Transformer 如何通过思维链过程来学习解决符号多步推理问题，重点关注树结构中的路径寻找任务。我们分析了两个相互关联的任务：一个是反向推理任务，模型从目标节点输出到根节点的路径；另一个更为复杂的正向推理任务，模型首先识别目标节点到根节点的路径，然后将其反转以生成根节点到目标节点的路径，从而实现两阶段推理。我们的理论分析基于梯度下降的动力学，表明经过训练的单层 Transformer 可以在理论上保证解决这两个任务，并且能够泛化到未见过的树结构上。特别是我们对正向推理任务的多阶段训练动力学分析，揭示了不同的注意力头如何自主地学习专业化并相互协作，在单一的自回归路径中完成两个子任务。这些结果为训练后的 Transformer 如何执行顺序性的算法过程提供了机制性的解释。此外，它们还为推理能力的产生提供了洞见，表明当任务被设计为需要中间思维步骤时，即使是浅层的多头 Transformer 也能有效解决那些原本需要更深架构才能处理的问题。

834

热度

PDF

解读

LocAgent: Graph-Guided LLM Agents for Code Localization

代码定位——即精确识别代码库中需要修改的位置——是软件维护中一项基础但极具挑战性的任务。现有的方法在识别相关代码部分时，难以高效地导航复杂的代码库。其挑战在于将自然语言描述的问题与适当的代码元素联系起来，这通常需要跨越层次结构和多重依赖进行推理。我们提出了 LocAgent，一个基于图表示的框架，用于解决代码定位问题。通过将代码库解析为有向异构图，LocAgent 创建了一种轻量级的表示方式，能够捕捉代码结构（如文件、类、函数）及其依赖关系（如导入、调用、继承），从而使大语言模型代理能够通过强大的多步推理有效搜索和定位相关实体。在真实世界基准上的实验结果表明，我们的方法显著提高了代码定位的准确性。特别是，使用微调后的 Qwen-2.5-Coder-Instruct-32B 模型的方法，在成本大幅降低的情况下（约减少 86%），实现了与当前顶尖专有模型相当的结果，文件级定位的准确率高达 92.7%，同时多次尝试（Pass@10）下的 GitHub 问题解决成功率提升了 12%。我们的代码已开源，可在 https://github.com/gersteinlab/LocAgent 获取。

555

热度

PDF

解读

Sheaf theory: from deep geometry to deep learning

本文综述了层论在深度学习、数据科学以及计算机科学中的应用。正文部分作为对应用和计算层论的友好介绍，旨在让具备基础数学知识的读者能够理解。我们描述了理论研究者和实践者共同持有的关于层论的直觉和动机，从而将经典数学理论与其在信号处理和深度学习中的最新实现联系起来。我们观察到，通常认为仅限于胞腔层的概念大多可以推广到任意偏序集上的层，这为这些方法在应用中的进一步泛化提供了一条有趣的途径，并且我们提出了一种新的算法来计算任意有限偏序集上的层上同调。通过结合经典理论与最新应用，本工作揭示了当前机器学习实践中的一些盲点。最后，我们列出了一些我们认为在数学上有启发性且在实际中有指导意义的层论应用问题。为了确保层论的介绍是自包含的，附录中提供了严格的数学引论，内容从图示和层的基本概念逐步深入到导出函子、高阶上同调、层拉普拉斯算子、层扩散及其相互关联的主题。

476

热度

PDF

解读

Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities

在本报告中，我们介绍了Gemini 2.X模型系列：Gemini 2.5 Pro和Gemini 2.5 Flash，以及我们此前推出的Gemini 2.0 Flash和Flash-Lite模型。Gemini 2.5 Pro是我们迄今为止能力最强的模型，在前沿的代码编写和推理基准测试中达到了最先进的水平。除了出色的编程和推理能力之外，Gemini 2.5 Pro还是一种具备卓越多模态理解能力的思考型模型，现在它已经能够处理长达三小时的视频内容。它的长上下文、多模态与推理能力的独特结合，可以共同作用，解锁全新的基于智能体的工作流程。Gemini 2.5 Flash则在计算资源和延迟要求大幅降低的情况下，提供了出色的推理能力；而Gemini 2.0 Flash和Flash-Lite则在低延迟和低成本的前提下实现了高性能。整体而言，Gemini 2.X模型系列全面覆盖了模型能力与成本之间的最优权衡曲线（Pareto前沿），使用户能够探索复杂智能体问题解决能力的边界。

369

热度

PDF

解读

A Comparative Survey of PyTorch vs TensorFlow for Deep Learning: Usability, Performance, and Deployment Trade-offs

Zakariya Ba Alawi

2025年08月06日

本文对TensorFlow和PyTorch这两个主流深度学习框架进行了全面的对比综述，重点分析了它们在易用性、性能和部署方面的权衡。我们回顾了每个框架的编程范式和开发者体验，比较了TensorFlow基于计算图（现在可选启用即时执行）的方式与PyTorch动态的、贴近Python风格的设计。接着，我们通过多个任务和数据场景下的模型训练速度和推理性能进行比较，依据来自最新的基准测试和研究。我们还深入分析了部署灵活性——从TensorFlow成熟的生态系统（如用于移动端/嵌入式设备的TensorFlow Lite、TensorFlow Serving以及JavaScript支持），到PyTorch较新推出的生产工具（如TorchScript编译、ONNX导出以及TorchServe）。此外，我们还综述了生态系统和社区支持情况，包括库的集成能力、工业界的采纳程度以及研究趋势（例如，PyTorch在近期研究论文中的主导地位，而TensorFlow则在企业级工具方面更为完善）。文章还讨论了在计算机视觉、自然语言处理等领域的应用实例，以展示两个框架在实际中的使用方式。最后，我们展望了深度学习框架设计的未来方向和开放性挑战，例如统一即时执行和图执行模式、提升跨框架的互操作性，以及整合编译器优化技术（如XLA和JIT）以提升运行速度。我们的研究发现，尽管这两个框架在实现最先进深度学习技术方面都非常强大，但它们在设计上存在明显差异：PyTorch在研究领域因其简洁性和灵活性更受青睐，而TensorFlow则提供了更为完整的生产环境生态系统——理解这些权衡对于从业者选择合适的工具至关重要。文中包含了图表、代码片段以及超过20条来自学术论文和官方文档的参考文献，以支持我们的对比分析。

349

热度

PDF

解读

BeyondMimic: From Motion Tracking to Versatile Humanoid Control via Guided Diffusion

从人类动作中学习技能为实现通用且灵活的人形机器人全身控制策略提供了一条有前景的路径，然而目前仍有两个关键基础尚未完善：（1）一个高质量的动作追踪框架，能够将大规模的运动学参考数据忠实转换为在真实硬件上稳定且极具动态性的动作；（2）一种蒸馏方法，能够有效学习这些动作基元，并将其组合起来以完成下游任务。我们提出了BeyondMimic，一个面向真实世界的人形机器人控制框架，通过引导扩散机制，从人类动作中学习出通用且自然的人体运动控制方式。我们的框架提供了一套动作追踪流程，能够实现诸如跳跃旋转、冲刺和侧手翻等高难度技能，其动作质量达到当前最优水平。BeyondMimic不仅限于对已有动作的简单模仿，还进一步引入了一种统一的扩散策略，使系统在测试阶段能够通过简单的代价函数实现零样本的任务特定控制。在实际硬件上的部署结果显示，BeyondMimic在测试阶段能够完成多种任务，包括路径点导航、操纵杆远程控制以及避障等，有效弥合了仿真到实物的动作追踪鸿沟，并实现了人体动作基元的灵活合成，用于全身控制。https://beyondmimic.github.io/

174

热度

PDF

解读

Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation

生成符合用户指定身份的高保真人类视频在生成式人工智能领域中具有重要意义，但同时也面临诸多挑战。现有方法通常依赖过多的训练参数，且与其他AIGC工具缺乏兼容性。本文中，我们提出了Stand-In，这是一种轻量级、即插即用的视频生成身份保持框架。具体而言，我们在预训练的视频生成模型中引入了一个条件图像分支，通过带有条件位置映射的受限自注意力机制实现身份控制，并且仅需约2000对数据即可快速完成学习。尽管仅引入并训练了约1%的额外参数，我们的框架在视频质量和身份保持方面均取得了优异的效果，优于其他全参数训练方法。此外，我们的框架还可无缝集成到其他任务中，例如主体驱动的视频生成、姿态参考视频生成、风格化以及换脸等任务。

154

热度

PDF

解读

CAI: An Open, Bug Bounty-Ready Cybersecurity AI

Víctor Mayoral-Vilches ,

Luis Javier Navarrete-Lozano ,

María Sanz-Gómez ,

...

2025年04月08日

到2028年，大多数网络安全操作将实现自主化，而人类则负责远程操控。我们首次提出了网络安全领域的自主性等级分类，并介绍了网络安全AI（CAI），这是一个开源框架，通过专业的人工智能代理，使高级安全测试得以普及。通过严格的实证评估，我们证明了CAI在CTF基准测试中始终超越现有最先进技术，在各类挑战中表现出显著更高的效率——在特定任务中比人类快3,600倍，整体平均快11倍。CAI在“AI对人类”CTF现场挑战赛中，在AI团队中排名第一，并在全球范围内获得前20名，赢得了750美元的奖金。基于我们的研究结果，我们认为某些大型语言模型供应商关于其有限安全能力的说法并不准确。除了在网络安全竞赛中的表现，CAI还展示了其在现实世界中的有效性：在短短一周内，它在“Hack The Box”平台上排名西班牙前30、全球前500，同时将安全测试成本平均降低了156倍。我们的框架超越了理论基准，通过模块化的代理设计、无缝的工具集成以及人类监督（HITL），使非专业人士也能以与专家相当的效率发现重大安全漏洞（CVSS评分4.3-7.5）。通过这种方式，CAI填补了市场上的关键空白，为各种规模的组织提供了以前只有资源丰富的公司才能获得的、由AI驱动的漏洞赏金安全测试服务，从而挑战了目前由主要漏洞赏金平台主导的寡头生态系统。

150

热度

PDF

解读

Small Language Models are the Future of Agentic AI

大型语言模型 (LLMs) 通常因其在广泛任务中表现出接近人类的表现而受到赞誉，并因其能够进行通用对话的能力而被重视。然而，具有自主代理功能的 AI 系统的兴起，正在带来大量应用场景，在这些场景中，语言模型需要反复执行少量专门化任务，且变化较少。在此，我们认为小型语言模型 (SLMs) 对于许多代理系统中的调用而言，已经具备足够的能力、本质上更加适合，并且在经济性上是必要的，因此它们将是代理 AI 的未来。我们的论点基于当前 SLMs 所展现的能力水平、代理系统的常见架构以及语言模型部署的经济性。此外，我们认为在需要通用对话能力的情况下，异构代理系统（即调用多个不同模型的代理）是自然的选择。我们还讨论了在代理系统中采用 SLMs 可能面临的障碍，并概述了一种将 LLM 转换为 SLM 的通用代理转换算法。我们的观点以价值声明的形式表达，强调了即使从 LLMs 部分转向 SLMs，也将对 AI 代理行业产生重要的运营和经济影响。我们希望通过这一讨论推动对 AI 资源有效利用的关注，并努力降低当今 AI 的成本。我们欢迎对我们的观点进行补充或批评，并承诺将所有相关通信发布在 https://research.nvidia.com/labs/lpr/slm-agents。

129

热度

PDF

解读

Continual Learning of Large Language Models: A Comprehensive Survey

最近，基于静态、预先收集的通用数据集训练的大型语言模型（LLM）取得了成功，引发了许多研究方向和应用。其中一个方向解决了将预训练的LLM集成到动态数据分布、任务结构和用户偏好中的非常困难的挑战。预训练的LLM在针对特定需求进行调整时，通常会在以前的知识领域中经历显着的性能下降，这种现象被称为“灾难性遗忘”。虽然在连续学习（CL）社区中得到了广泛研究，但它在LLM领域呈现出新的表现形式。在本次调查中，我们提供了关于LLM在CL背景下的当前研究进展的全面概述。本次调查分为四个主要部分：首先，我们描述了连续学习LLM的概述，包括连续性的两个方向：垂直连续性（或垂直连续学习），即从通用到特定能力的连续适应，以及水平连续性（或水平连续学习），即跨时间和领域的连续适应（第3节）。然后，我们总结了现代CL背景下LLM学习的三个阶段：连续预训练（CPT）、领域自适应预训练（DAP）和连续微调（CFT）（第4节）。接下来，我们提供了关于LLM连续学习的评估协议的概述，以及当前可用的数据来源（第5节）。最后，我们讨论了与LLM连续学习相关的有趣问题（第6节）。本次调查中检查的所有论文列表可在https://github.com/Wang-ML-Lab/llm-continual-learning-survey上找到。

热度

PDF

解读