每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
LLM hallucinations in the wild: Large-scale evidence from non-existent citations
2026年05月08日
大语言模型(LLMs)在多种情境下均被证实会生成看似合理实则错误的信息,然而此类“幻觉”问题在现实世界中的实际规模及其后果迄今仍缺乏充分认识。本研究利用一种具有独特可验证性的对象——科学文献引文——对arXiv、bioRxiv、SSRN和PubMed Central四大开放获取平台中总计250万篇论文所含的1.11亿条参考文献进行了系统性核查。结果发现,在大语言模型被广泛采用之后,虚构引文数量急剧上升;仅以保守估计,2025年一年内即出现高达146,932条幻觉引文。这些错误虽分散嵌入于大量论文之中,但在人工智能技术采纳速度较快的学科领域、文本语言特征明显体现AI辅助写作痕迹的稿件,以及作者团队规模较小或由早期职业研究者组成的团队所发表的成果中尤为突出。与此同时,幻觉引文不成比例地将学术贡献归功于本已声望卓著且多为男性的学者,表明大语言模型生成的错误可能进一步加剧科学界既有的认可不平等现象。预印本平台的审核机制与期刊出版流程仅能拦截其中极小一部分此类错误,说明幻觉内容的扩散速度已远超现有质量保障体系的应对能力。综上所述,本研究揭示:大语言模型的幻觉现象正以规模化方式渗入知识生产体系,不仅危及未来科学发现的可靠性,也威胁其公平性——因为人类研究者与人工智能系统在开展后续研究时,均需持续依赖既有的科学文献基础。
366
热度
许愿开讲
PDF
解读
ZapGPT: Free-form Language Prompting for Simulated Cellular Control
2025年09月12日
人类语言是表达意图的最有力工具之一,然而大多数人工或生物系统却缺乏解读或有意义回应语言的机制。弥合这一差距,可能使我们以更自然的方式操控复杂且去中心化的系统。在人工智能和人工生命领域,最近的研究探索了语言如何用来指定高层次目标,但大多数系统仍然依赖人工设计的奖励机制、特定任务的监督信号或固定的命令集,从而限制了它们对新指令的泛化能力。在合成生物学和生物工程领域也存在类似的限制,其中控制通常作用于基因组层面,而非通过环境扰动来实现。 一个关键的开放问题是:是否可以仅凭自由形式的自然语言来引导人工或生物群体的行为,而无需针对特定任务进行调优或精心设计评估指标?我们在本文中给出了一个可能的答案。我们首次展示,只需自由形式的语言提示,就能引导简单智能体的集体行为:一个AI模型将指令式提示转化为干预措施,并作用于模拟细胞;另一个AI模型则评估该提示对细胞动态变化的描述准确程度;前一个AI模型通过进化不断优化,以提升后一个模型给出的评分。 与以往研究不同,我们的方法不需要人工设计的适应度函数或领域特定的提示设计。我们展示了这一系统可以在无需重新训练的情况下泛化到未见过的提示。通过将自然语言视为一种控制层,该系统描绘了一种未来图景:口头或书面提示可以引导计算系统、机器人系统或生物系统实现期望的行为。这项研究朝着“人工智能与生物学协作”的愿景迈出了实质性的一步,在这一愿景中,语言取代了数学目标函数、固定规则以及领域特定的编程方式。
301
热度
许愿开讲
PDF
解读
Position: Why a Dynamical Systems Perspective is Needed to Advance Time Series Modeling
2026年02月18日
时间序列(TS)建模已历经显著演进:从早期以统计方法为主、 predominantly 线性的建模范式,发展到当前聚焦于时间序列基础模型(TS foundation models)的研究热潮。然而,该领域在工业界备受追捧、舆论热度高涨的同时,其真实进展究竟几何,却并不总是清晰明了。为推动时间序列预测与分析迈向更高水平,本文主张:该领域亟需引入动力系统(DS)的视角。自然系统或工程系统所产生的观测时间序列,几乎无一例外地源自某种潜在的动力系统;而理论上,若能获知该动力系统的控制方程,则可实现最优预测——这正是动力系统重构(DSR)所承诺的目标。DSR是一类机器学习/人工智能方法,旨在仅凭观测数据推断出该潜在动力系统的代理模型(surrogate model)。但基于动力系统原理构建的模型,还具备其他深刻优势:除短期预测外,它们还能预测观测系统的长期统计特性;而在诸多实际应用场景中,这些长期统计量往往比点预测更具现实意义与实用价值。此外,动力系统理论提供了不依赖具体领域的普适性理论洞见,有助于深入理解时间序列生成背后的内在机制;由此,我们得以获知:任何时间序列模型性能的理论上限、模型在未见过工况(如临界点突变)下的泛化能力边界,以及潜在的系统调控策略等关键信息。本文在综述动力系统理论及DSR领域若干核心概念、方法、度量指标与建模框架之后,将重点探讨该领域的重要洞见如何以关键方式推动时间序列建模的发展——尤其体现在提升预测精度的同时,大幅降低计算开销与内存占用。最后,本文提出若干具体建议,以切实促进DSR研究成果向时间序列建模实践的有效转化。
283
热度
许愿开讲
PDF
解读
Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning
2026年05月07日
大语言模型(LLMs),尤其是具备推理能力的模型,会生成较长的思维链(Chain-of-Thought, CoT)推理过程,其中往往显式地权衡未来可能的结果。然而,这种权衡是否构成真正意义上的规划、其内在结构如何、以及哪些特征实际驱动了模型的表现,目前仍缺乏深入理解。在本研究中,我们提出一种新方法,用于刻画大语言模型的规划行为:以“四子连珠”(four-in-a-row)棋类游戏为任务场景,从模型生成的推理轨迹中提取并量化其隐含的搜索树。通过在所提取的搜索树上拟合计算模型,我们系统刻画了规划的结构特征及其对落子决策的影响机制。研究发现:大语言模型的搜索深度浅于人类;其表现主要由搜索的广度(即每层展开的节点数量)而非深度(即搜索层数)所预测。尤为引人注目的是,尽管大语言模型在推理轨迹中确实扩展了深层节点,但其最终落子选择却最符合一种“短视模型”(myopic model)——该模型完全忽略所有深层节点,仅依赖最表层的信息作出判断。进一步开展因果干预实验,即有选择性地剪枝思维链中的若干段落,结果同样表明:落子决策主要由浅层节点驱动,而非深层节点。这些模式与人类规划形成鲜明对比——人类的表现恰恰主要依赖于深层搜索。综上,我们的发现揭示了大语言模型与人类规划之间的一项关键差异:人类的专业能力源于更深层次的前瞻性搜索,而大语言模型虽能生成深层推理内容,却并未据此采取行动。这一“行为与表征的分离”现象,为推动大语言模型规划能力与人类规划方式的对齐提供了明确、有针对性的指导方向。更广泛而言,本研究所提出的分析框架具有良好的可迁移性,可推广应用于各类策略性任务领域,以系统解析大语言模型规划行为的内在结构。
195
热度
许愿开讲
PDF
解读
Spectral Lens: Activation and Gradient Spectra as Diagnostics of LLM Optimization
2026年05月07日
训练损失与吞吐量可能掩盖语言模型训练过程中内在表征的实质性差异。为探究这些隐藏机制,我们采用谱分析方法作为实用且可操作的诊断手段。基于一套受控的、源自修改版NanoGPT代码库的纯解码器架构模型,我们提出了一种以激活协方差(activation covariance)和单样本梯度奇异值分解(per-sample gradient SVD)谱为核心的实证研究方案。这一双重视角揭示了三项经验性发现,并给出一个机制性解释。 第一,批量大小(batch size)作为一种潜在变量,决定着表征空间的几何结构:即便不同训练运行最终收敛至相同的损失值,其激活谱仍系统性地呈现出显著差异; 第二,训练初期测得的激活协方差谱“尾部”(即小特征值部分)能可靠地预测后续生成任务中的词元效率(token efficiency); 第三,激活谱“头部”(即主导模态,leading modes)的动态迁移,结合梯度谱的变化,可有效刻画底层学习动力学的演变过程,从而将真正源于学习侧(learning-side)的架构改进,与主要属于执行侧(execution-side)的性能提升明确区分开来。 上述各项预测性与诊断性信号,在12层、36层及48层三种不同规模的模型上均保持一致。 最后,我们构建了一个机制性模型,不仅复现并验证了前述主要观测现象,还进一步阐明了激活协方差谱为何能够反映面向任务的特征学习过程。
193
热度
许愿开讲
PDF
解读
SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
2026年05月14日
我们提出了SANA-WM——一种高效、参数量为26亿的开源世界模型,原生支持长达一分钟的视频生成,可合成高保真、720p分辨率、时长以分钟计的视频,并实现精准的相机运动控制。SANA-WM在视觉质量上可媲美LingBot-World和HY-WorldPlay等大规模工业级基线模型,同时显著提升了整体运行效率。本架构由四大核心设计驱动:(1)混合线性注意力机制(Hybrid Linear Attention),将帧级门控Delta网络(GDN)与Softmax注意力相结合,从而在保障长时序建模能力的同时大幅降低显存开销;(2)双分支相机控制模块(Dual-Branch Camera Control),确保模型严格遵循用户指定的六自由度(6-DoF)相机运动轨迹;(3)两阶段生成流程(Two-Stage Generation Pipeline),在第一阶段生成结果基础上,引入专用于长视频的精细化重构器(long-video refiner),显著提升生成视频的整体质量与帧间一致性;(4)鲁棒的标注流水线(Robust Annotation Pipeline),从公开视频中自动提取具备真实尺度信息的六自由度相机位姿,进而生成高质量、时空一致的动作标签。依托上述设计,SANA-WM在数据使用、训练算力及推理硬件三方面均展现出卓越的效率优势:仅需约21.3万段带真实尺度位姿监督的公开视频片段即可完成训练;在64块H100 GPU上仅需15天即可完成全部训练;单卡GPU即可生成一段60秒的完整视频;其蒸馏轻量化版本经NVFP4量化后,可在单块RTX 5090显卡上于34秒内完成一段60秒、720p分辨率视频的去噪生成。在我们构建的一分钟世界模型评测基准上,SANA-WM的动作跟随准确率明显优于此前所有开源基线模型,且在视觉质量相当的前提下,吞吐量达到现有方案的36倍,为可扩展的世界建模提供了切实可行的高效路径。
184
热度
许愿开讲
PDF
解读
Spontaneous symmetry breaking and Goldstone modes for deep information propagation
2026年05月14日
在物理系统中,只要存在某种连续对称性发生自发破缺,系统便会激发出一类被称为“戈德斯通模”(Goldstone modes)的低能激发态;这类激发态能够支持信息在长距离和长时间尺度上以相干方式传播。 本研究聚焦于一类内部隐层具有连续对称性等变性的深度神经网络,此类网络因而可能支持与戈德斯通模类似的动力学自由度。 我们通过解析推导与实验验证双重手段表明:这些类戈德斯通自由度可实现信号在深度方向及循环迭代过程中的相干传播,从而为信息的稳定流动提供一种内在机制——该机制无需依赖残差连接、归一化等外部架构层面的稳定性设计。 在前馈网络中,这一机制显著提升了模型的可训练性,并增强了各隐层表征的多样性; 在循环网络中,我们进一步证明,同一机制可通过在循环迭代过程中持续传递信息,有效支撑长时程记忆功能,从而显著提升循环神经网络(RNN)与门控循环单元(GRU)在长序列建模任务上的性能。
170
热度
许愿开讲
PDF
解读