每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Geometric Context Transformer for Streaming 3D Reconstruction
2026年04月15日
实时三维重建旨在从视频流中恢复三维信息(例如相机位姿和点云),这要求模型具备几何精度高、时间一致性好以及计算效率高的特点。受同步定位与建图(SLAM)原理启发,我们提出了LingBot-Map——一种面向流式数据场景重建的前馈式三维基础模型,其核心架构为几何上下文变换器(Geometric Context Transformer, GCT)。LingBot-Map的一个关键特征在于其精心设计的注意力机制:该机制融合了锚点上下文(anchor context)、位姿参考窗口(pose-reference window)和轨迹记忆(trajectory memory)三部分,分别用于解决坐标系对齐、稠密几何线索建模以及长时程漂移校正等核心问题。这一设计在保持流式状态高度紧凑的同时,仍能保留丰富的几何上下文信息,从而实现在长达一万帧以上的序列上,对分辨率为518×378的输入稳定高效地进行推理,帧率约为20 FPS。我们在多种主流基准数据集上开展了大量实验评估,结果表明,本方法在性能上显著优于现有的各类实时流式重建方法及基于迭代优化的传统方法。
310
热度
许愿开讲
PDF
解读
Watching TV with the Second-Party: A First Look at Automatic Content Recognition Tracking in Smart TVs
2024年09月10日
智能电视采用一种称为自动内容识别(ACR)的独特跟踪方法来对其用户的观看活动进行分析。ACR是一种类似于Shazam的技术,它通过定期捕捉电视屏幕上显示的内容,并将其与内容库进行匹配,以检测任何给定时间点上正在显示的内容。虽然先前的研究已经调查了智能电视生态系统中的第三方跟踪,但它没有研究由智能电视平台直接进行的二方ACR跟踪。在这项工作中,我们对智能电视上的ACR客户端和ACR服务器之间的ACR网络流量进行黑盒审计。我们使用我们的审计方法系统地调查ACR跟踪是否对用户观看电视的方式(例如线性观看、流媒体观看、HDMI观看)不加区分,智能电视提供的隐私控制是否会对ACR跟踪产生影响,以及英国和美国之间是否存在ACR跟踪方面的差异。我们在两个主要智能电视平台Samsung和LG上进行了一系列实验。我们的结果表明,即使智能电视被用作“哑”外部显示器,ACR也可以工作,选择退出可以停止与ACR服务器的网络流量,并且ACR在英国和美国的工作方式存在差异。
189
热度
许愿开讲
PDF
解读
Mechanisms of Introspective Awareness
2026年03月22日
近期研究表明,大语言模型(LLM)有时能够察觉自身残差流中是否被注入了引导向量,并能识别出所注入的概念;这一现象被引作“内省式觉知”(introspective awareness)的证据。但支撑这一能力的内在机制究竟是什么?这些机制反映的是真正具备内省功能的神经回路,还是仅依赖于更为表层的经验性启发式策略?我们针对开源模型展开系统性探究,并得出三项主要发现: 第一,内省能力在行为层面具有稳健性:在涵盖多种提示词(prompts)的广泛测试中,模型的检测准确率(真阳性率)达到中等水平,且假阳性率为零;此外,我们还发现该能力特异地源于模型的后训练阶段(post-training),而非预训练阶段(pretraining)。 第二,内省能力无法被简化为单一的线性混淆因素:异常检测依赖于多方向上分布式前馈神经网络(MLP)的协同计算,其具体实现依托于两类关键特征——“证据承载特征”(evidence carrier features)与“门控特征”(gate features)。 第三,模型实际具备的内省能力远超其默认状态下所表现出的水平:通过消融(ablation)模型中与拒绝响应相关的神经方向,检测性能可提升53个百分点(pp);而若进一步消融经训练得到的引导向量,则检测性能更可提升75个百分点。总体而言,我们的结果表明,内省式觉知在行为层面稳健可靠,其基础是模型内部非平凡的异常检测机制,且未来模型极有可能在该能力上实现显著提升。 代码地址:https://github.com/safety-research/introspection-mechanisms
158
热度
许愿开讲
PDF
解读
Financial Dynamics and Interconnected Risk of Liquid Restaking
2026年03月23日
去中心化金融(DeFi)作为数字金融的重要组成部分,正催生一系列全新的商业模式与应用场景。近期兴起的“再质押”(restaking)机制,已成为DeFi领域一项具有变革意义的技术路径——它虽有望为用户带来额外收益,却也引入了高度复杂且彼此关联的风险体系。本文系统监测了当前再质押生态的发展现状,实证分析了流动性再质押协议(liquid restaking protocol)的收入驱动因素,并深入开展了技术层面的专项研究,重点考察流动性再质押与其他协议之间相互耦合所引发的风险外溢效应。 本文以Renzo协议为研究对象,采用普通最小二乘法(OLS)回归模型、格兰杰因果检验(Granger-causality test)以及随机森林特征重要性分析(random forest feature importance test),对其收入动态进行了量化建模与实证检验。研究结果表明,Renzo协议的收入主要由三大因素预测:底层EigenLayer生态系统的锁仓价值(TVL)、Renzo流动性再质押代币(LRT)的收益率,以及该代币向多条区块链网络的跨链扩展程度。其中,流动性再质押代币的多链扩展呈现典型的“双刃剑”效应:一方面,跨链桥接对提升用户采纳率至关重要;另一方面,它又在原有再质押风险基础之上,额外叠加了跨链桥接本身固有的安全风险。 本文进一步探究了不同DeFi服务与流动性再质押协议之间可能存在的“风险交叉污染”(cross-contamination risk)。通过绘制资产在去中心化金融生态中的全链路流动图谱,我们发现:目前Renzo协议所管理的流动性再质押资产规模下,其跨链桥接风险尚不足以对当前再质押及质押(staking)整体生态构成系统性风险。 为审慎评估上述日益凸显的互联风险可能引发的严重后果,本文设计了两个假设性风险情景并开展压力测试:一是假设大量流动性再质押代币遭恶意控制或劫持;二是假设某DeFi协议的智能合约逻辑发生严重故障。鉴于当前流动性再质押协议数量持续增长、彼此间互联互通程度不断加深,本研究所揭示的风险演化路径与关联复杂性仍需后续更深入、更系统的探索与完善。
156
热度
许愿开讲
PDF
解读
Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems
2026年04月14日
Claude Code 是一款具备自主行为能力的编程辅助工具,可代表用户执行 Shell 命令、编辑文件,并调用外部服务。本研究通过分析其公开发布的 TypeScript 源代码,系统阐述了该工具的整体架构;并进一步将其与 OpenClaw(一个独立开发的开源人工智能代理系统)进行对比——后者虽面向不同部署场景,却在诸多核心设计问题上给出了相似的解答。我们的分析提炼出驱动该架构设计的五大人类价值取向、哲学理念与实际需求:人类决策主导权、安全与保障、执行可靠性、能力增强性,以及情境适应性;并据此追溯出十三条具体的设计原则,进而映射至各项关键技术实现方案。该系统的核心逻辑极为简洁:一个基础的 while 循环,依次调用大语言模型、执行工具函数,再循环往复。然而,系统绝大部分代码并非位于该主循环内部,而是分布于围绕它的各类支撑子系统之中:包括一套拥有七种权限模式并辅以机器学习分类器的细粒度权限控制系统;一条用于上下文管理的五级压缩流水线;四种扩展机制——MCP(Model-Client Protocol)、插件(plugins)、技能(skills)和钩子(hooks);一种支持工作树(worktree)隔离的子代理委托机制;以及一种以追加(append)方式写入的会话存储方案。与 OpenClaw(一个多通道个人助理网关)的对比表明:当部署场景发生变化时,尽管面临相同的一系列反复出现的设计挑战,系统最终呈现的架构形态却显著不同——例如,在安全性方面,从针对单次操作的细粒度安全分类,转向面向整个系统边界的访问控制;在运行时结构上,从单一命令行接口(CLI)循环,演进为嵌入式运行于网关控制平面之内的轻量级运行时;在能力管理上,则从单纯依赖上下文窗口扩展,升级为面向整个网关范围的能力注册与发现机制。最后,我们基于近期实证研究、架构实践及政策文献,归纳出未来智能代理系统亟待探索的六大开放性设计方向。
153
热度
许愿开讲
PDF
解读
Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning
2025年09月29日
尽管大语言模型(LLM)在预训练阶段的扩展规律已得到广泛研究,但其在强化学习(RL)后训练阶段的行为仍鲜有探索。本文对基于强化学习的后训练过程中的扩展行为进行了系统的实证研究,特别聚焦于数学推理能力。通过对不同模型规模和训练设置下的54组实验,我们刻画了模型规模、数据量和计算预算之间如何相互作用并影响性能表现。我们的分析得出四个关键发现:(1)在计算预算固定的情况下,训练步数较少的大模型始终优于训练步数较多的小模型;(2)在训练数据量固定的前提下,更大的模型具有更高的样本效率,能够实现更低的损失值;(3)在数据受限的情况下,重复使用高质量数据被证明极为有效,因为最终性能主要取决于优化步数的总量,而非样本的唯一性;(4)这些扩展规律在基础模型和经过指令微调的模型上均表现出稳健性,两类模型虽在绝对准确率上存在差异,但展现出相似的学习动态(例如大模型收敛更快)。综上所述,这些结果为通过强化学习后训练高效扩展大语言模型的推理能力提供了理论依据和实用指导。
118
热度
许愿开讲
PDF
解读
The Art of Scaling Reinforcement Learning Compute for LLMs
2025年10月15日
强化学习(RL)已成为训练大语言模型(LLMs)的核心方法,但该领域尚缺乏与预训练阶段相媲美的可预测性扩展方法论。尽管计算资源预算迅速增长,目前仍缺乏系统性的理解来评估强化学习算法在扩展计算规模时的改进效果。本文开展了首次大规模系统性研究,总计消耗超过40万GPU小时,建立了一个系统分析和预测大语言模型中强化学习扩展规律的理论框架。我们拟合了强化学习训练中的S型(sigmoidal)计算-性能曲线,并对一系列常见的设计选择进行了消融实验,以分析它们对渐近性能和计算效率的影响。我们观察到:(1)并非所有训练方案都能达到相似的最终性能;(2)诸如损失函数聚合方式、归一化方法、课程学习策略以及离线策略算法等细节,主要影响的是计算效率,而不会显著改变性能的极限值(即渐近线);(3)稳定且可扩展的训练方案遵循可预测的扩展轨迹,因此可以从较小规模的实验中推断出大规模运行的表现。综合这些发现,我们提出了一种最佳实践方案——ScaleRL,并通过一次扩展至10万GPU小时的强化学习训练实验,成功验证了该方案在性能扩展和预测上的有效性。本研究不仅为分析强化学习的扩展规律提供了科学框架,也提出了一套实用的训练方案,使强化学习的训练过程在可预测性方面更接近预训练阶段已实现的水平。
115
热度
许愿开讲
PDF
解读
Mixture-of-Depths Attention
2026年03月16日
扩展模型深度是大语言模型(LLM)性能提升的关键驱动力。然而,随着LLM不断加深,往往会出现信号退化问题:浅层所提取的富含信息的特征,在经过多轮残差更新后逐渐被稀释,导致其在深层中难以有效恢复。为此,我们提出“混合深度注意力机制”(Mixture-of-Depths Attention, MoDA),该机制允许每个注意力头在当前层对序列的键值(KV)对进行关注的同时,还能跨层访问前序各层所生成的深度KV对。我们进一步设计了一种面向硬件优化的MoDA实现算法,专门解决非连续内存访问模式带来的开销问题,在序列长度达64K时,其运行效率可达FlashAttention-2的97.3%。在15亿参数规模模型上的实验表明,MoDA始终优于多个强基线方法:在10个验证基准数据集上,其平均困惑度(perplexity)降低0.2;在10项下游任务上,平均性能提升2.11%,而计算开销仅增加微乎其微的3.7% FLOPs。此外,我们还发现,将MoDA与后归一化(post-norm)结构结合,效果优于其与前归一化(pre-norm)的组合。上述结果表明,MoDA是一种极具潜力的、支撑模型深度持续扩展的基础性机制。代码已开源:https://github.com/hustvl/MoDA。
100
热度
许愿开讲
PDF
解读