每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing
2026年03月12日
多模态大语言模型(MLLMs)已在通用视频理解任务中取得显著进展,但在处理长时长、高分辨率视频时仍面临挑战——其视觉变换器(ViT)或大语言模型(LLM)对视频中的每一个像素进行同等处理,而实际上视频在时空维度上存在大量冗余。为此,我们提出了一种轻量级模块 AutoGaze,可在视频输入 ViT 或 MLLM 之前,自动剔除冗余图像块(patches)。AutoGaze 采用“下一词预测”目标与强化学习联合训练,以自回归方式动态选取最小规模的多尺度图像块集合,在用户指定的重建误差阈值内完整复原原始视频,从而在最大限度保留关键信息的同时彻底消除冗余。实验表明,AutoGaze 可将视觉 token 数量减少 4 至 100 倍,并使 ViT 和 MLLM 的推理速度最高提升达 19 倍;由此,MLLM 得以成功扩展至包含 1000 帧、分辨率达 4K 的长视频理解任务,并在多项视频基准测试中取得更优性能(例如,在 VideoMME 上准确率达到 67.0%)。此外,我们构建了 HLVid 数据集:这是首个面向高分辨率、长时序视频的问答基准,涵盖时长 5 分钟、分辨率为 4K 的真实视频;在此基准上,经 AutoGaze 扩展后的 MLLM 相比基线模型提升 10.1%,并以 4.5% 的优势超越此前表现最佳的 MLLM。项目主页:https://autogaze.github.io/
1696
热度
许愿开讲
PDF
解读
TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
2025年04月28日
向量量化是一个源于香农信源编码理论的问题,目标是以最小化几何结构失真的方式对高维欧几里得向量进行量化。我们提出了 TurboQuant 方法,旨在同时解决均方误差(MSE)和内积失真的问题,克服了现有方法无法达到最优失真率的局限性。我们的数据无关算法适用于在线应用,并在所有比特宽度和维度上实现了接近最优的失真率(仅相差一个小的常数因子)。TurboQuant 通过随机旋转输入向量,使坐标分布趋于集中化的 Beta 分布,并利用高维空间中不同坐标的近似独立性,为每个坐标简单地应用最优标量量化器来实现这一目标。鉴于 MSE 最优量化器会在内积估计中引入偏差,我们提出了一种两阶段方法:首先应用 MSE 量化器,然后对残差进行 1 比特量化 JL(QJL)变换,从而得到一个无偏的内积量化器。此外,我们还提供了任何向量量化器所能达到的最佳失真率的信息论下界的正式证明,展示了 TurboQuant 紧密逼近这些下界,仅相差一个小的常数因子(约 2.7)。实验结果验证了我们的理论发现,表明在 KV 缓存量化任务中,我们使用每通道 3.5 比特可以实现绝对的质量中立,而使用每通道 2.5 比特则只会带来轻微的质量下降。此外,在最近邻搜索任务中,我们的方法在召回率方面优于现有的乘积量化技术,同时将索引时间减少到几乎为零。
473
热度
许愿开讲
PDF
解读
Loss Functions in Deep Learning: A Comprehensive Review
2025年04月05日
损失函数是深度学习的核心,决定了模型在各种任务中的学习和表现方式。它们用于量化预测输出与真实标签之间的差异,引导优化过程以最小化误差。选择合适的损失函数至关重要,因为它直接影响模型的收敛性、泛化能力和在不同应用中的整体性能,从计算机视觉到时间序列预测皆是如此。本文对损失函数进行了全面综述,涵盖了从均方误差(Mean Squared Error)和交叉熵(Cross-Entropy)等基础指标到对抗损失(Adversarial Loss)和扩散损失(Diffusion Loss)等高级函数。我们探讨了这些函数的数学基础、对模型训练的影响以及针对不同应用场景的战略选择,包括计算机视觉(判别式和生成式模型)、表格数据预测和时间序列预测。对于每一类,我们讨论了在近期深度学习技术发展中最常用的损失函数。此外,本综述还探索了损失函数设计的历史演变、计算效率以及当前面临的挑战,强调了对更自适应和鲁棒解决方案的需求。特别关注复杂场景,如多模态数据、类别不平衡和现实约束下的问题。最后,我们指出了未来的关键发展方向,提倡开发能够增强可解释性、可扩展性和泛化能力的损失函数,从而实现更高效和更具韧性的深度学习模型。
424
热度
许愿开讲
PDF
解读
End-to-End Training for Unified Tokenization and Latent Denoising
2026年03月23日
潜在扩散模型(LDMs)通过在学习得到的潜在空间中运行,实现了高保真度的图像合成。然而,训练当前最先进的LDMs需采用复杂的分阶段流程:必须先训练一个图像编码器(tokenizer),随后才能在该已冻结的潜在空间中训练扩散模型。为此,我们提出了UNITE——一种面向统一图像编码与潜在扩散的自编码器架构。UNITE的核心是一个“生成式编码器”(Generative Encoder),它通过权重共享机制,同时承担图像编码(tokenization)与潜在表征生成(latent generation)双重功能。我们的核心洞见在于:编码与生成本质上可被统一视为同一潜在推断问题,仅在条件输入方式上存在差异——编码任务是在图像完全可观测的前提下推断其潜在表征;而生成任务则是在噪声输入基础上、结合文本或类别等条件信息来推断潜在表征。受此启发,我们设计了一种单阶段训练范式:仅需对同一个生成式编码器执行两次前向传播,即可同步优化编码与生成两项任务。参数共享机制使得反向传播梯度能够协同塑造潜在空间,从而促使模型习得一种“共通的潜在语言”。在图像与分子两种模态的实验中,UNITE在无需对抗损失(adversarial losses)亦不依赖任何预训练编码器(如DINO)的前提下,达到了接近当前最优水平的性能:在ImageNet 256×256数据集上,其Base与Large两个版本分别取得了2.12与1.73的FID分数。我们还进一步从表征对齐(representation alignment)与压缩效率(compression)两个角度,对生成式编码器进行了深入分析。上述结果共同表明:从零开始、以单阶段联合方式同步训练图像编码与生成任务,不仅是可行的,而且能取得极具竞争力的性能表现。
401
热度
许愿开讲
PDF
解读
Hyperagents
2026年03月19日
自优化人工智能系统旨在通过学习改进自身的学习与问题求解过程,从而降低对人工工程设计的依赖。当前的自优化方法均依赖于固定、人工预设的元层级机制,从根本上限制了此类系统的进化速度。达尔文—哥德尔机(DGM)通过反复生成并评估自身修改后的变体,在编程任务中实现了开放式自优化。由于评估与自我修改本身皆为编程任务,因此编程能力的提升可直接转化为自优化能力的提升。然而,这种能力对齐关系在编程领域之外通常并不成立。为此,我们提出**超智能体(hyperagents)**——一类具有自指能力的智能体,它将任务智能体(负责解决目标任务)与元智能体(负责修改自身及任务智能体)整合为一个统一的、可编辑的程序。尤为关键的是,该元层级的修改流程本身亦是可编辑的,从而支持元认知层面的自我修改:不仅优化任务求解行为,更持续改进未来自我优化所依赖的机制本身。我们在DGM框架基础上拓展构建了**DGM-超智能体(DGM-H)**,以实例化这一新范式;该拓展消除了原有假设——即任务性能提升与自我修改能力提升之间必须存在特定领域内的对齐关系,因而有望在任意可计算任务上实现自我加速式进步。在多个迥异的任务领域中,DGM-H均展现出随时间推移而持续提升的性能,并显著优于不具备自优化能力或开放式探索能力的基线模型,也超越了此前各类自优化系统。此外,DGM-H还能不断优化其生成新智能体的过程本身(例如引入持久化记忆、性能追踪机制等),而这些元层级的改进不仅可在不同任务领域间迁移复用,还能在多次运行中持续累积。DGM-超智能体为我们揭示了一类真正开放式的AI系统之雏形:它们不再仅限于搜索更优解,而是持续进化其“如何改进自身”的整个搜索机制。
160
热度
许愿开讲
PDF
解读
Model Predictive Control with Differentiable World Models for Offline Reinforcement Learning
2026年03月23日
离线强化学习(Offline RL)旨在仅利用固定的离线数据集学习最优策略,而无需与环境进行任何额外交互。这类方法通常在训练阶段学习一个离线策略(或价值函数),并在推理阶段直接部署该策略,不再对其进行进一步调整。我们提出了一种受模型预测控制(MPC)启发的推理时自适应框架,该框架结合了一个预训练策略以及一个学习得到的状态转移与奖励的世界模型。尽管现有世界模型方法和扩散规划(diffusion-planning)方法已在训练过程中利用所学动力学模型生成“想象”轨迹,或在推理阶段利用其采样候选规划方案,但它们均未利用推理时的实际观测信息对策略参数进行实时优化。与此不同,我们的设计是一种“可微分世界模型”(Differentiable World Model, DWM)流水线,它支持通过“想象” rollout 进行端到端梯度反传,从而在推理阶段基于 MPC 原理对策略参数实施在线优化。我们在 D4RL 连续控制基准任务(包括 MuJoCo 仿生运动任务与 AntMaze 迷宫导航任务)上对所提算法进行了评估。结果表明,利用推理时信息实时优化策略参数,能够持续、稳定地超越多种强基线离线强化学习方法。
136
热度
许愿开讲
PDF
解读
SkillRouter: Retrieve-and-Rerank Skill Selection for LLM Agents at Scale
2026年03月23日
随着大语言模型(LLM)智能体生态系统的持续扩展,可用技能(即工具、插件)的数量已高达数万个,使得将全部技能注入智能体上下文变得完全不可行。这催生了“技能路由”(skill routing)这一关键需求——即针对用户提出的特定任务,从海量技能池中高效检索出最相关的技能。而该问题的复杂性进一步加剧:在社区共建的技能库中,功能重叠现象极为普遍——大量技能虽名称与用途相似,但具体实现细节却各不相同。尽管技能路由在实际应用中至关重要,目前相关研究仍十分匮乏。当前主流的智能体架构普遍采用“渐进式披露”(progressive disclosure)设计:仅向智能体暴露技能的名称与描述,而将其完整的实现代码(即技能主体)隐匿不公开;这种设计隐含地假设仅凭元数据(metadata)就足以支撑准确的技能选择。我们通过一项系统性的实证研究,对约8万项技能及75个经领域专家严格验证的查询任务构成的基准测试集展开分析,对上述假设提出挑战。我们的核心发现是:技能主体(即完整实现代码文本)才是决定性判别信号——一旦移除该信息,所有检索方法的性能均出现29–44个百分点的显著下降;而交叉编码器(cross-encoder)的注意力分析进一步表明,模型注意力有91.7%集中于技能主体字段。受此发现启发,我们提出了SkillRouter——一种两阶段“检索—重排序”(retrieve-and-rerank)流水线架构,整体参数量仅为12亿(其中编码器6亿,重排序器6亿)。SkillRouter实现了74.0%的Top-1技能路由准确率,在我们评估的所有轻量级、零样本基线方法中取得最优的平均性能,且完全可在消费级硬件上部署运行。
130
热度
许愿开讲
PDF
解读
Even GPT-5.2 Can't Count to Five: The Case for Zero-Error Horizons in Trustworthy LLMs
2026年01月22日
我们提出了“零错误视界”(Zero-Error Horizon,简称ZEH)这一概念,用于衡量大语言模型(LLM)的可信度,其定义为模型在不产生任何错误的前提下所能解决任务的最大范围。尽管ZEH本身形式简洁,但我们证明:对当前最先进大语言模型的ZEH进行评估,能够揭示大量富有启发性的洞见。例如,通过对GPT-5.2开展ZEH评估,我们发现:该模型甚至无法正确计算一个极短字符串(如“11000”)的奇偶性,也无法判断括号串“(((())))))”是否匹配平衡——而这一结果令人惊讶,毕竟GPT-5.2在其他方面展现出卓越的能力。大语言模型在如此基础的问题上仍会出错,这一事实为将其部署于安全关键型领域敲响了重要警钟。进一步地,我们将ZEH方法应用于Qwen2.5并展开细致分析,结果表明:虽然ZEH与模型整体准确率存在相关性,但其具体行为模式却各不相同;更重要的是,ZEH还能为算法能力(algorithmic capabilities)的涌现提供关键线索。最后,尽管ZEH的计算开销较大,我们亦探讨了若干优化策略,例如借助树状结构与在线Softmax技术,可将计算速度提升高达一个数量级,从而有效缓解该成本问题。
128
热度
许愿开讲
PDF
解读
LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
2026年03月13日
联合嵌入预测架构(JEPA)为在紧凑的潜在空间中学习世界模型提供了一种极具吸引力的框架;然而,现有方法仍十分脆弱,往往依赖于复杂的多分量损失函数、指数滑动平均、预训练编码器,或额外的辅助监督信号,以避免表征坍缩问题。本文提出了LeWorldModel(LeWM),这是首个仅需两个损失项即可实现从原始像素端到端稳定训练的JEPA:其一是下一时刻潜在表征的预测损失,其二是强制潜在嵌入服从高斯分布的正则化项。相较于目前唯一已有的端到端替代方案,该设计将可调损失超参数数量从六个大幅缩减至一个。LeWM仅含约1500万参数,可在单块GPU上数小时内完成训练;其规划速度较基于基础模型的世界模型最高提升达48倍,同时在各类二维与三维控制任务中仍保持竞争力。除控制能力外,我们还通过物理量探针实验表明,LeWM的潜在空间能够有效编码具有物理意义的结构信息;而“意外性”(surprise)评估进一步证实:该模型能可靠地识别出物理上不可能发生的事件。
117
热度
许愿开讲
PDF
解读