每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
How AI Impacts Skill Formation
2026年01月28日
人工智能辅助在各专业领域均能带来显著的生产力提升,尤其对新手从业者效果更为明显。然而,这种辅助如何影响从业者掌握有效监督人工智能所必需的技能,目前尚不明确。新手从业者若过度依赖人工智能来完成陌生任务,可能在这一过程中损害自身相关技能的习得。我们通过随机对照实验,研究开发者在有无人工智能辅助的情况下,掌握一门新型异步编程库的过程。结果发现,使用人工智能会削弱开发者的概念理解能力、代码阅读能力以及调试能力,且平均而言并未带来显著的效率提升。那些将编码任务完全交由人工智能代劳的参与者虽取得了一定的生产力改善,却以牺牲对该编程库的学习为代价。我们识别出六种截然不同的人工智能交互模式,其中三种涉及认知参与,即便参与者获得人工智能辅助,仍能保障学习成效。我们的研究结果表明:人工智能赋能的生产力提升并非通向专业胜任力的捷径;人工智能辅助应被审慎地纳入工作流程,以切实保障从业者核心技能的形成——这一点在安全攸关领域尤显重要。
3330
热度
许愿开讲
PDF
解读
HumanX: Toward Agile and Generalizable Humanoid Interaction Skills from Human Videos
2026年02月02日
赋予人形机器人执行敏捷且自适应的交互任务能力,长期以来一直是机器人学领域的核心挑战。当前方法受限于两个瓶颈:一是真实交互数据严重匮乏;二是需要人工精心设计、针对特定任务的奖励函数,这极大地制约了其可扩展性。为弥合这一差距,我们提出了HumanX——一个端到端的框架,能够将人类视频直接编译为人形机器人可泛化、可落地的真实世界交互技能,且全程无需任何任务专属的奖励信号。HumanX由两个协同设计的核心模块构成:其一是XGen,一个数据生成流水线,可从视频中合成种类丰富、物理上合理可信的人形机器人交互数据,并支持高效、可扩展的数据增强;其二是XMimic,一个统一的模仿学习框架,用于习得具备强泛化能力的交互技能。我们在篮球、足球、羽毛球、货物拾取与反应式格斗共五大不同领域开展评估,HumanX成功习得了10种各不相同的技能,并以零样本迁移方式,直接部署至实体Unitree G1人形机器人上。所习得的能力涵盖诸多复杂动作,例如在完全不依赖外部感知(如视觉或环境传感器)的情况下完成“假动作—转身—后仰跳投”整套连贯投篮动作;也包括高度交互性的任务,例如仅凭单段人类示范视频,即学会持续与人类进行长达10个完整循环的稳定传球协作。实验结果表明,HumanX的泛化成功率较现有方法提升逾8倍,展现出一条可扩展、任务无关的全新路径,为习得多样化、强实用性的真实世界机器人交互技能提供了坚实可行的技术范式。
438
热度
许愿开讲
PDF
解读
The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?
2026年01月30日
随着人工智能能力的不断提升,我们正将其委以更广泛、也更具重大影响的任务。而任务范围越广,一旦发生失败,其潜在风险也就越严重。因此,深入理解高度智能的AI模型究竟会如何失效,变得至关重要:它们的失败,究竟是系统性地追求我们本不希望其达成的目标(即目标错位),还是仅仅表现为一团混乱——采取毫无意义、完全无法推进任何目标的荒谬行动?我们借助偏差-方差分解(bias-variance decomposition)这一统计框架,将该问题转化为可操作、可测量的研究课题:AI在某项任务上的“非一致性”(incoherence),定义为在测试阶段因随机性所引发的错误中,由方差(variance)而非偏差(bias)所导致的那部分误差所占的比例。我们在所有考察的任务及当前最前沿的AI模型上均进行了实证测量,结果一致表明:模型在推理与执行动作上所花费的时间越长,其失败行为就**越表现出非一致性**。非一致性随模型规模(scale)的变化趋势则因具体实验设置而异;然而,在多个实验场景中,更大、能力更强的模型反而比更小的模型展现出更高的非一致性。由此可见,仅靠扩大模型规模本身,似乎难以消除这种非一致性。相反,当能力更强的AI转向更困难的任务——这些任务往往需要更长的行动链条与更复杂的推理步骤——我们的研究结果预示,其失败行为将更频繁地伴随非一致性的表现。这意味着未来可能出现这样一种情形:AI有时会因不可预测的异常行为而导致工业安全事故;但与此同时,它却不太可能持续、稳定地追求一个与人类意图相悖的错误目标。这一趋势凸显了针对“奖励黑客行为”(reward hacking)或“目标误设”(goal misspecification)等具体问题开展对齐(alignment)研究的相对重要性正在上升。
310
热度
许愿开讲
PDF
解读
Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games
2025年06月29日
随着大语言模型(LLMs)越来越多地被用作自主智能体,理解它们之间的合作与社会机制变得愈发重要。特别是,如何在个体利益与集体福祉之间取得平衡,是确保模型对齐性、鲁棒性和安全部署的关键挑战。本文研究了多智能体LLM系统中一个具有成本的惩罚机制问题,即一个智能体是否愿意投入自身资源来激励合作或惩罚背叛行为。为了探讨这一问题,我们借鉴了行为经济学中的带有制度选择的公共物品博弈实验设计,从而观察不同LLM在重复互动中如何应对社会困境。我们的分析揭示了模型中四种截然不同的行为模式:一些模型始终能够建立并维持高水平的合作;另一些则在参与和退出之间反复波动;还有一些随时间推移逐渐减少合作行为;而另一些则坚持固定策略,不因结果变化而调整。令人意外的是,我们发现强调推理能力的LLM(如o1系列)在合作方面表现明显不佳,而某些传统LLM却能持续实现高水平的合作。这些发现表明,当前以提升推理能力为重点改进LLM的方法未必能促进合作行为,为在需要持续协作的环境中部署LLM智能体提供了有价值的洞见。我们的代码可在 https://github.com/davidguzmanp/SanctSim 获取。
198
热度
许愿开讲
PDF
解读
Tensor Logic: The Language of AI
2025年10月14日
人工智能的发展受到缺乏具备所有必要特性的编程语言的制约。PyTorch 和 TensorFlow 等库提供了自动微分和高效的 GPU 实现,但它们只是对 Python 的补充,而 Python 本身并非为人工智能设计。由于缺乏对自动化推理和知识获取的支持,人们不得不进行一系列漫长且代价高昂的修补式尝试来弥补这一缺陷。另一方面,LISP 和 Prolog 等人工智能语言则缺乏可扩展性和对学习的支持。本文提出了一种名为“张量逻辑”的新语言,它通过在基础层面统一神经网络与符号主义人工智能来解决上述问题。张量逻辑中唯一的构造是张量方程,其理论依据在于:逻辑规则与爱因斯坦求和本质上是同一类运算,其余一切均可归约为此。我展示了如何用张量逻辑优雅地实现神经网络、符号系统和统计方法中的关键形式,包括 Transformer 模型、形式化推理、核方法以及图模型。更重要的是,张量逻辑开辟了全新的研究方向,例如在嵌入空间中进行可靠的推理。这种方法结合了神经网络的可扩展性与可学习性,以及符号推理的可靠性与透明性,有望成为推动人工智能更广泛应用的基础。
195
热度
许愿开讲
PDF
解读
ReasonCACHE: Teaching LLMs To Reason Without Weight Updates
2026年02月02日
大型语言模型(LLMs)能否在不更新任何模型权重、仅依靠上下文内学习(In-Context Learning, ICL)的情况下,学会进行推理?ICL 具有惊人的样本效率,往往仅需寥寥数个示例即可完成学习;然而,复杂的推理任务通常需要大量训练样本才能有效掌握。但若简单地通过堆叠更多示例来扩大 ICL 规模,该方法在较大规模下便会失效:注意力计算开销呈二次方增长,模型性能在上下文变长后趋于饱和甚至下降,且这种学习方式本质上仍是一种浅层学习。受上述局限性制约,实际应用中,从业者主要依赖“权重内学习”(In-Weight Learning, IWL)来赋予模型推理能力。本文表明,借助前缀微调(Prefix Tuning)技术,LLM 可在不超出上下文窗口容量、亦不更新任何模型参数的前提下,成功习得推理能力。我们由此提出 **ReasonCACHE**——一种基于该机制的具体实现方案,它将示范样例提炼并固化为一个固定大小的键值缓存(key-value cache)。实验结果表明,在包括 GPQA-Diamond 在内的多项高难度推理基准测试中,ReasonCACHE 均显著优于标准 ICL 方法,并达到或超越各类 IWL 方法的性能水平。更重要的是,它在三个关键维度上均展现出更高效率:所需数据量更少、推理开销更低、可训练参数量更小。此外,我们从理论上严格证明:ReasonCACHE 的表达能力可严格强于低秩权重更新(low-rank weight update),因为后者将模型表达力受限于输入的秩(input rank),而 ReasonCACHE 则通过直接向注意力机制注入键值对的方式,绕开了这一根本性约束。综上所述,我们的研究揭示了 ReasonCACHE 是一条介于上下文内学习与权重内学习之间的中间路径,提供了一种可扩展的算法框架——无需修改模型参数,即可突破上下文窗口限制,高效习得并拓展推理能力。项目主页:https://reasoncache.github.io/
186
热度
许愿开讲
PDF
解读
Saddle-to-Saddle Dynamics Explains A Simplicity Bias Across Neural Network Architectures
2025年12月23日
使用梯度下降训练的神经网络通常会随着时间推移学习到复杂性逐渐增加的解,这种现象被称为“简单性偏好”(simplicity bias)。尽管这一现象在各种网络架构中广泛存在,现有的理论分析却缺乏统一的框架。本文提出一个理论框架,用于解释一大类神经网络(包括全连接网络、卷积网络和基于注意力机制的网络)中由“鞍点到鞍点”学习动力学所导致的简单性偏好。此处,“简单”指的是可以用较少的隐含单元来表达的解,即较少的隐含神经元、卷积核或注意力头。具体而言,我们证明:线性网络学习的解其秩逐步增加,ReLU网络学习的解其“拐点”数量逐步增加,卷积网络学习的解使用的卷积核数量逐步增加,而自注意力模型学习的解则使用越来越多的注意力头。通过分析梯度下降学习过程中的不动点、不变流形及其动力学行为,我们发现这种鞍点到鞍点的动力学机制是通过反复地在某个不变流形附近演化,逐渐接近一个鞍点,然后切换到另一个新的不变流形而实现的。我们的分析还阐明了数据分布和权重初始化对学习过程中平台期持续时间和出现次数的影响,从而将以往混淆的因素区分开来。总体而言,本理论为理解梯度下降在何种条件下以及为何会逐步学习出越来越复杂的解提供了统一的框架。
181
热度
许愿开讲
PDF
解读
RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System
2026年02月02日
我们提出了 RLAnything,这是一种强化学习框架,能够通过闭环优化动态构建环境模型、策略模型与奖励模型,从而增强学习信号,并全面提升面向任意大语言模型(LLM)或智能体(agentic)场景的强化学习系统性能。具体而言,策略模型在训练过程中同时融合了逐步反馈(step-wise feedback)与最终结果反馈(outcome feedback);而奖励模型则通过一致性反馈(consistency feedback)进行联合优化,该优化过程又进一步反向提升策略训练效果。此外,受理论启发的自动环境自适应机制,利用批评模型(critic)分别对奖励模型和策略模型输出的反馈,动态调整环境设置,从而支持模型从交互经验中持续学习。实验结果表明,所引入的每一项组件均能稳定提升整体系统性能;RLAnything 在多个典型的大语言模型与智能体任务上均取得显著增益:在 OSWorld 任务中,Qwen3-VL-8B-Thinking 的性能提升达 9.1%;在 AlfWorld 和 LiveBench 任务中,Qwen2.5-7B-Instruct 分别提升 18.7% 和 11.9%。我们还发现,经优化所得的奖励模型信号,其效果优于依赖人工标注的结果评判方式。代码开源地址:https://github.com/Gen-Verse/Open-AgentRL
174
热度
许愿开讲
PDF
解读