每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Block-Recurrent Dynamics in Vision Transformers
2025年12月23日
随着视觉Transformer(ViTs)成为标准的视觉骨干网络,对其计算现象进行机制性解释变得至关重要。尽管其架构暗示了某种动态结构的存在,但目前尚无统一框架能将Transformer的深度解读为一种清晰刻画的信息流过程。在本文中,我们提出了“模块循环假说”(Block-Recurrent Hypothesis, BRH),认为训练后的ViT具备一种模块化的循环深度结构,即原本由 $L$ 个模块完成的计算可以被精确地重写为仅使用 $k \ll L$ 个不同模块反复调用的形式。在多种不同的ViT模型中,层间表征相似性矩阵表明,网络深度方向上存在数量较少的连续阶段。为了验证这些阶段是否确实反映了可重复使用的计算模式,我们训练了预训练ViT的循环式替代模型——“对相位结构Transformer的循环近似”(Raptor)。在小规模实验中,我们证明随机深度和训练过程会促进循环结构的形成,并且这种结构的强弱与我们能否准确拟合Raptor模型密切相关。接着,我们通过实证方式验证了BRH的存在性:仅用2个模块构建的Raptor模型,在相当的计算成本下恢复了DINOv2 ImageNet-1k线性探针准确率的96%。最后,我们基于该假说发展了一套动力学可解释性研究方案。我们发现:i)表征在前向传播过程中沿特定方向收敛至类别依赖的角度吸引盆地,并在受到微小扰动时表现出自我纠正的轨迹;ii)不同token具有特定的动力学行为,其中[cls] token在后期发生急剧的方向重定向,而图像块token则在后期强烈地向其平均方向保持一致性;iii)在网络深层阶段,更新逐渐退化为低秩形式,这与系统向低维吸引子收敛的现象一致。综上所述,我们在ViT的深度方向上发现了一种紧凑的循环计算程序,揭示了一种低复杂度的规范性解,使得这些模型能够通过严谨的动力系统分析方法加以研究。
891
热度
许愿开讲
PDF
解读
Decoupling the "What" and "Where" With Polar Coordinate Positional Embeddings
2025年09月05日
Transformer架构中的注意力机制是根据内容(即“什么”)以及序列中的位置(即“哪里”)将键(key)与查询(query)进行匹配的。我们提出了一种分析,表明在流行的RoPE旋转位置编码中,“什么”和“哪里”是纠缠在一起的。这种纠缠可能会影响模型性能,尤其是在决策需要分别依赖这两个因素独立匹配的情况下。我们提出了一种对RoPE的改进方案,称为极坐标位置编码(Polar Coordinate Position Embeddings),简称PoPE,该方案消除了“什么”与“哪里”之间的混淆。在一项仅需通过位置或内容进行索引的诊断任务中,PoPE表现出明显优势。在音乐、基因组和自然语言等自回归序列建模任务中,使用PoPE作为位置编码的Transformer模型,在评估损失(困惑度)和下游任务表现方面均优于使用RoPE的基线模型。在语言建模任务中,从124M到774M参数的不同模型规模下,PoPE的优势都持续存在。关键的是,PoPE展现出强大的零样本长度外推能力,而RoPE在测试时面对更长的序列长度时,若不进行微调或使用位置插值方法,其性能会显著下降。
566
热度
许愿开讲
PDF
解读
LIR$^3$AG: A Lightweight Rerank Reasoning Strategy Framework for Retrieval-Augmented Generation
2025年12月20日
检索增强生成(RAG)通过将检索到的外部知识融入生成过程,有效提升了大语言模型(LLM)的能力。推理模型在多跳问答任务中改善了大语言模型的表现,这类任务需要整合并推理来自不同文档的多个证据片段,以回答复杂问题。然而,这些方法通常带来显著的计算开销,包括更高的令牌消耗和推理延迟。为了更深入地理解并缓解这一权衡,我们对推理模型在RAG多跳问答任务中的推理策略进行了全面研究。研究发现,推理模型采用结构化的策略来融合检索到的知识与内部知识,主要表现为两种模式:基于上下文的推理(Context-Grounded Reasoning),即直接依赖于检索内容进行推导;以及知识协调式推理(Knowledge-Reconciled Reasoning),即利用模型内部知识解决信息冲突或填补空白。基于上述发现,我们提出了一种新颖的轻量级重排序推理策略框架LiR$^3$AG,使非推理模型也能通过将检索到的证据重构为连贯的推理链,从而迁移使用这些推理策略。LiR$^3$AG平均减少了98%的输出令牌开销和58.6%的推理时间,同时使8B规模的非推理模型F1得分提升了6.2%至22.5%,性能甚至超过了RAG场景下32B规模的推理模型,为RAG系统的发展提供了一条高效且实用的新路径。
147
热度
许愿开讲
PDF
解读
Dexterous World Models
2025年12月19日
最近的3D重建技术进展使得从日常环境中轻松创建逼真的数字孪生成为可能。然而,当前的数字孪生大多仍处于静态状态,仅限于导航和视角合成,缺乏具身交互能力。为弥合这一差距,我们提出了灵巧世界模型(Dexterous World Model, DWM),这是一种场景-动作条件化的视频扩散框架,能够建模灵巧的人类动作如何在静态3D场景中引发动态变化。 给定一个静态3D场景的渲染结果和一段以自我为中心的手部运动序列,DWM能够生成时间上连贯、呈现合理人-场景交互的视频。我们的方法将视频生成过程建立在两个条件基础上:(1)按照指定相机轨迹进行的静态场景渲染,以确保空间一致性;(2)以自我为中心的手部网格渲染,用以编码几何形状和运动线索,从而直接建模依赖于动作的动态变化。为了训练DWM,我们构建了一个混合交互视频数据集:合成的以自我为中心的交互数据为联合移动与操作学习提供了完全对齐的监督信号,而固定相机拍摄的真实世界视频则贡献了丰富且真实的物体动态。 实验表明,DWM能够实现诸如抓取、开启和移动物体等真实且符合物理规律的交互行为,同时保持相机视角与场景的一致性。该框架是迈向基于视频扩散的交互式数字孪生的重要第一步,实现了从第一人称动作出发的具身化仿真。
102
热度
许愿开讲
PDF
解读
Multi-stage Bayesian optimisation for dynamic decision-making in self-driving labs
2025年12月17日
自动驾驶实验室(SDLs)融合了机器人技术、自动化以及基于机器学习的数据分析与决策等最新技术进展,能够在无需任何人工直接干预的情况下,自主开展实验以实现人类设定的目标。目前,SDLs已成功应用于材料科学、化学及其他领域,以系统化且数据高效的方式优化工艺、材料和器件。现阶段,最广泛使用的算法是贝叶斯优化,用于确定最具信息价值的下一个实验。尽管标准贝叶斯优化相对容易应用于各种优化问题,但它依赖于固定的实验流程,要求明确的一组优化参数以及一个或多个可测量的目标函数。这种方法排除了在实验过程中对预定操作序列进行实时调整的可能性,也无法将中间测量结果纳入决策过程。因此,许多现实中的实验必须经过调整和简化,才能适配自动驾驶实验室的常规模式。本文提出了一种对贝叶斯优化的扩展方法,能够灵活采样多阶段实验流程,并基于中间可观测变量(我们称之为代理测量)做出最优决策。我们系统性地比较了考虑代理测量的方法与传统贝叶斯优化(仅观测最终结果)之间的优势。研究发现,在多种不同场景下,引入代理测量均显著提升了性能,不仅加快了找到优质解的速度,也提高了最终所得解的整体最优性。这一进展不仅为在自动驾驶实验室中采用更复杂、更贴近实际的实验流程铺平了道路,也为下一代自动驾驶实验室中实验与模拟的无缝结合提供了可能。
98
热度
许愿开讲
PDF
解读