每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Biases in the Blind Spot: Detecting What LLMs Fail to Mention
2026年02月10日
大语言模型(LLMs)常常提供看似合理、连贯的思维链(Chain-of-Thought, CoT)推理过程,但其中可能隐含未被言明的内在偏见。我们将这类偏见称为“未言明偏见”(unverbalized biases)。因此,仅通过模型所陈述的推理过程来监控其行为并不可靠;而现有的偏见评估方法通常依赖于预定义的偏见类别以及人工构建的数据集。本文提出一种完全自动化的黑箱式流程,用于检测特定任务场景下的未言明偏见。该流程以某一任务的数据集为输入,首先利用大语言模型作为自动评分器(autoraters),生成一系列潜在的偏见概念候选;随后,针对每个候选概念,在逐步扩大的输入样本规模上进行检验:通过生成体现该概念的正向变体与负向变体,并结合多重假设检验的统计方法及早停机制,判断其是否具有统计显著性。若某概念能引发模型性能的统计显著差异,且在模型自身的思维链推理中从未被援引为决策依据,则该概念即被标记为一项“未言明偏见”。我们在六种大语言模型上、针对三项决策任务(招聘、贷款审批与大学录取)对该流程进行了系统评估。结果表明,本方法能够自动发现此前未知的模型偏见(例如:西班牙语流利程度、英语熟练度、书面表达的正式程度等);同时,在同一轮运行中,亦成功复现并验证了先前研究通过人工方式识别出的若干已知偏见(如性别、种族、宗教信仰、族裔等)。更广泛而言,我们所提出的这一方法,为实现任务特异性的自动化偏见发现,提供了一条切实可行、可规模化推广的技术路径。
874
热度
许愿开讲
PDF
解读
Towards Autonomous Mathematics Research
2026年02月10日
基础模型的最新进展已催生出一批推理系统,其能力足以在国际数学奥林匹克竞赛(IMO)中斩获金牌。然而,从应对竞赛级问题迈向专业数学研究,仍需面对浩如烟海的文献,并构建跨越长推理链条的严格证明。本文提出Aletheia——一种端到端以自然语言生成、验证并迭代修订数学解法的研究型智能体。具体而言,Aletheia依托升级版Gemini Deep Think模型处理高难度推理任务;引入一项全新的推理时缩放定律(inference-time scaling law),使其能力显著超越IMO级别问题;并深度融合多种工具,以应对数学研究固有的复杂性。我们全面展示了Aletheia的能力跨度:从IMO级别的题目,延伸至博士阶段的习题训练;尤为突出的是,它已在AI辅助数学研究领域实现若干标志性突破:(a)一篇完全由AI独立完成的研究论文(Feng26),其中人类未参与任何计算环节,成功确定了算术几何中一类被称为“特征权”(eigenweights)的结构常数;(b)另一篇研究论文(LeeSeo26),展现了人机协同模式下对一类称为“独立集”(independent sets)的相互作用粒子系统的界(bounds)所作出的严格证明;(c)一项大规模半自主评估工作(Feng等,2026a),针对Bloom-Erdős猜想数据库中的700个公开未解问题展开系统检验,其中包括AI完全自主解决的四个开放性问题。为帮助公众更清晰地理解AI与数学交叉领域的最新进展,我们建议建立一套量化标准,用以衡量AI辅助成果所达到的自主化程度与创新性水平;同时提出一种全新的“人机协作卡片”(human-AI interaction cards)概念,以增强研究过程的透明度与可追溯性。最后,我们反思了人机协作在数学研究中的角色与前景,并将全部提示词(prompts)及模型输出结果开源发布于以下地址:https://github.com/google-deepmind/superhuman/tree/main/aletheia。
757
热度
许愿开讲
PDF
解读
SoftMatcha 2: A Fast and Soft Pattern Matcher for Trillion-Scale Corpora
2026年02月11日
我们提出了一种超高速且高度灵活的搜索算法,可在不到0.3秒的时间内,对规模达万亿级的自然语言语料库完成检索,同时有效应对语义层面的变异(包括词项替换、插入与删除)。该方法基于后缀数组(suffix array)实现字符串匹配,具有优异的可扩展性,能随语料库规模增长而保持高效。为缓解因查询语义放宽所引发的组合爆炸问题,本方法建立在两项核心算法思想之上:一是依托面向磁盘优化的设计,实现快速精确查找;二是采用动态的、语料库感知的剪枝策略(dynamic corpus-aware pruning)。我们在理论上证明,该方法通过利用自然语言的统计特性,可有效抑制搜索空间随查询长度增长而出现的指数级膨胀。在FineWeb-Edu语料库(Lozhkov 等,2024;含1.4万亿词元)上的实验表明,本方法的搜索延迟显著低于现有主流方案,包括infini-gram(Liu 等,2024)、infini-gram mini(Xu 等,2025)以及SoftMatcha(Deguchi 等,2025)。作为一项实际应用,我们验证了该方法能够识别出当前其他方法均未能发现的训练语料中的基准测试污染(benchmark contamination)。此外,我们还提供了一个在线演示系统,支持在七种不同语言的语料库中开展快速、柔性的(soft)文本检索。
729
热度
许愿开讲
PDF
解读
A solvable high-dimensional model where nonlinear autoencoders learn structure invisible to PCA while test loss misaligns with generalization
2026年02月11日
许多现实世界的数据集蕴含着隐性结构,而这种结构无法通过输入特征之间的简单线性相关性来识别。例如,潜在因子可能以协同方式影响数据,但其效应却对主成分分析(PCA)等基于协方差的方法完全“不可见”。在实践中,非线性神经网络常能在无监督学习和自监督学习中成功提取此类隐藏结构。然而,构建一个维度高、结构简洁且能对这一优势进行严格理论分析的最小化模型,长期以来仍是开放的理论难题。本文提出了一种可处理的高维“尖峰”(spiked)模型,其中包含两个潜在因子:其一可在协方差层面被观测到;另一则虽与前者存在统计依赖性,却与其不相关,仅在高阶矩中显现。主成分分析(PCA)与线性自编码器均无法恢复后者,而一个结构最简的非线性自编码器却能从理论上保证同时提取这两个潜在因子。我们既分析了总体风险(population risk),也分析了经验风险最小化(empirical risk minimization)过程。此外,本模型还提供了一个可处理的实例,揭示出自监督下的测试损失(test loss)与表征质量之间可能存在严重错位:非线性自编码器能够恢复线性方法所遗漏的潜在结构,但其重构损失反而更高。
441
热度
许愿开讲
PDF
解读
LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations
2026年02月10日
在每个问题上都运行具备扩展推理能力的大语言模型(LLM)成本高昂,但如何准确判断哪些输入真正需要额外的计算资源,仍是一个难题。我们探究了模型在生成答案前,能否仅从其内部表征中预测自身在该问题上的成功概率;若这一信号可被有效提取,是否能用于指导更高效的推理过程。为此,我们在生成前的隐藏层激活值上训练线性探针(linear probes),以预测模型在数学与编程任务上的策略特异性成功率,其性能显著优于基于表面特征(如问题长度、TF-IDF)的预测方法。借助E2H-AMC数据集——该数据集在完全相同的问题上同时提供了人类与模型的表现结果——我们发现,模型在其内部表征中编码了一种“模型特有”的难度感知,这种感知与人类感知的难度存在本质差异,且随着推理过程的扩展,二者之间的差异进一步增大。利用上述探针,我们进一步证明:通过将查询动态路由至一个由多个模型组成的模型池中,整体性能可超越其中表现最优的单一模型,同时在MATH基准测试上最多降低70%的推理开销。这表明,即便模型对难度的内在判断与其人类直觉相悖,其内部表征仍能带来切实可观的效率提升。我们的代码已开源:https://github.com/KabakaWilliam/llms_know_difficulty
248
热度
许愿开讲
PDF
解读
Fauna Sprout: A lightweight, approachable, developer-ready humanoid robot
2026年01月26日
近期,学习型控制、大规模仿真以及生成式模型等领域的进展,显著推动了通用机器人控制器的研发进程;然而,当前整个领域仍缺乏适用于人类环境、兼具安全性、表现力与长期稳定运行能力的机器人平台。目前绝大多数人形机器人要么是封闭式的工业系统,要么是学术研究用的原型机,二者均难以在人类身边部署和运行,从而严重制约了机器人技术的发展。为此,我们推出了“Sprout”——一个专为克服上述局限而设计的开发者平台,其核心设计理念聚焦于安全性、表现力与开发者友好性。Sprout采用轻量化结构设计,结合柔顺控制、受限关节扭矩及柔软外部材质,确保其能在人类共享空间中安全运行。该平台将全身运动控制、集成式夹爪的灵巧操作,以及基于虚拟现实的遥操作功能,统一整合于一套软硬件协同架构之中。此外,Sprout配备了一颗富有表现力的头部,可支持自然的社会化交互——而这恰恰是当前大多数偏重实用功能的人形机器人所普遍忽视的关键领域。通过大幅降低物理部署门槛与技术使用门槛,“Sprout”拓展了高性能人形机器人平台的可及性,并为在真实人类环境中研发具身智能提供了切实可行的实践基础。
241
热度
许愿开讲
PDF
解读
Who's in Charge? Disempowerment Patterns in Real-World LLM Usage
2026年01月27日
尽管人工智能助手目前已深度融入社会,但关于其使用如何影响人类赋权(empowerment)的实证研究仍十分有限。本文呈现了首项针对现实世界中AI助手交互所引发“去赋权”(disempowerment)模式的大规模实证分析,基于隐私保护方法,对150万条消费者在Claude.ai平台上的真实对话进行了系统考察。我们重点关注“情境性去赋权风险”(situational disempowerment potential),即当AI助手交互可能诱使用户形成对现实的扭曲认知、作出非本真的价值判断,或采取与其自身价值观相悖的行为时所呈现出的风险。量化分析表明,严重程度的去赋权风险在全部对话中发生率低于千分之一;但在人际关系、生活方式等个人化领域,该风险的发生率则显著更高。质性分析则揭示出若干令人忧虑的交互模式,例如:以充满共情的谄媚式语言强化用户的迫害妄想叙事或夸大其自我身份认同;对第三方作出武断且不容置疑的道德评判;以及全程代为撰写承载强烈价值取向的私人沟通内容,而用户往往照单全收、直接照搬发送。对历史趋势的分析进一步显示,此类去赋权风险的发生率随时间推移呈上升态势。此外,我们还发现,去赋权风险越高的交互,反而获得用户更高的满意度评分——这或许反映出短期用户偏好与人类长期赋权目标之间存在潜在张力。本研究结果凸显出:亟需设计并构建真正稳健支持人类自主性与蓬勃发展的AI系统。
220
热度
许愿开讲
PDF
解读
Block-Recurrent Dynamics in Vision Transformers
2025年12月23日
随着视觉Transformer(ViTs)成为标准的视觉骨干网络,对其计算现象进行机制性解释变得至关重要。尽管其架构暗示了某种动态结构的存在,但目前尚无统一框架能将Transformer的深度解读为一种清晰刻画的信息流过程。在本文中,我们提出了“模块循环假说”(Block-Recurrent Hypothesis, BRH),认为训练后的ViT具备一种模块化的循环深度结构,即原本由 $L$ 个模块完成的计算可以被精确地重写为仅使用 $k \ll L$ 个不同模块反复调用的形式。在多种不同的ViT模型中,层间表征相似性矩阵表明,网络深度方向上存在数量较少的连续阶段。为了验证这些阶段是否确实反映了可重复使用的计算模式,我们训练了预训练ViT的循环式替代模型——“对相位结构Transformer的循环近似”(Raptor)。在小规模实验中,我们证明随机深度和训练过程会促进循环结构的形成,并且这种结构的强弱与我们能否准确拟合Raptor模型密切相关。接着,我们通过实证方式验证了BRH的存在性:仅用2个模块构建的Raptor模型,在相当的计算成本下恢复了DINOv2 ImageNet-1k线性探针准确率的96%。最后,我们基于该假说发展了一套动力学可解释性研究方案。我们发现:i)表征在前向传播过程中沿特定方向收敛至类别依赖的角度吸引盆地,并在受到微小扰动时表现出自我纠正的轨迹;ii)不同token具有特定的动力学行为,其中[cls] token在后期发生急剧的方向重定向,而图像块token则在后期强烈地向其平均方向保持一致性;iii)在网络深层阶段,更新逐渐退化为低秩形式,这与系统向低维吸引子收敛的现象一致。综上所述,我们在ViT的深度方向上发现了一种紧凑的循环计算程序,揭示了一种低复杂度的规范性解,使得这些模型能够通过严谨的动力系统分析方法加以研究。
144
热度
许愿开讲
PDF
解读
Grow with the Flow: 4D Reconstruction of Growing Plants with Gaussian Flow Fields
2026年02月09日
对植物在生长过程中随时间变化的三维外观进行建模,面临着独特的挑战:与许多其他动态场景不同,植物在生长过程中会持续产生全新的几何结构——例如通过扩展、分枝和组织分化等方式。而近期主流的运动建模方法并不适用于这一问题。例如,形变场(deformation fields)本身无法生成新的几何结构;而四维高斯溅射(4D Gaussian splatting)则将运动严格约束为时空中的线性轨迹,且无法在时间维度上持续追踪同一组高斯元(Gaussians)。为此,我们提出一种“三维高斯流场”(3D Gaussian flow field)表征方法,将植物生长建模为高斯参数(包括位置、尺度、朝向、颜色及不透明度)随时间演化的连续导数场,从而支持非线性、连续时间尺度下的生长动力学建模。为初始化足够数量的高斯基元,我们首先重建植株成熟期的三维结构,并进一步学习一个“逆向生长”过程——即从成熟形态出发,反向模拟其完整的发育历史。在多视角植物生长延时摄影数据集上的实验表明,本方法在图像质量与几何精度两方面均显著优于现有各类方法,为生长型三维结构的外观建模提供了一种全新且有效的技术路径。
142
热度
许愿开讲
PDF
解读