每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task
2025年06月10日
本研究探讨了大型语言模型(LLM)辅助写作对神经活动和行为的影响。参与者被分为三组:LLM组、搜索引擎组和纯脑力组(无工具辅助)。每组在相同条件下完成了三次写作任务。在第四次任务中,LLM组的参与者被重新分配到纯脑力组(LLM转纯脑力),而纯脑力组的参与者则被重新分配到LLM组(纯脑力转LLM)。共有54名参与者完成了前三个阶段的任务,其中18人完成了第四阶段的任务。我们通过脑电图(EEG)评估写作过程中的认知负荷,并使用自然语言处理(NLP)技术分析文章内容,同时结合人类教师和AI评分系统对文章进行评分。 结果表明,在各组内部,命名实体识别(NER)、n-gram模式和主题本体均表现出较高的同质性。脑电图数据显示,不同组别的大脑连接性存在显著差异:纯脑力组的大脑网络最为强大且分布广泛;搜索引擎组表现出中等程度的参与度;而LLM组的大脑连接性最弱。认知活动随着外部工具使用的增加而逐渐减少。在第四阶段任务中,从LLM转为纯脑力的参与者显示出α波和β波连接性的降低,表明其参与度不足。而从纯脑力转为LLM的参与者则表现出更高的记忆回忆能力以及枕叶-顶叶和额叶区域的激活,这一表现与搜索引擎组相似。 此外,自评结果显示,LLM组对文章的“所有权”感最低,而纯脑力组最高。值得注意的是,LLM组的参与者在准确引用自己作品方面也遇到了困难。尽管LLM提供了即时便利,但我们的研究揭示了其可能带来的认知成本。在为期四个月的研究中,LLM组在神经、语言和行为层面的表现始终逊于其他组别。这些结果引发了对长期依赖LLM在教育领域影响的担忧,并强调了深入探究人工智能在学习中角色的重要性。
828
热度
PDF
解读
LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?
2025年06月13日
近期有报告显示,大型语言模型 (LLMs) 在竞争性编程中已经超越了顶尖人类选手。基于一群国际算法竞赛奖牌得主的专业知识,我们重新审视了这一说法,探讨了大型语言模型与人类专家之间的差异,以及其仍存在的局限性。我们引入了 LiveCodeBench Pro,这是一个由 Codeforces、ICPC 和 IOI 的问题组成的基准测试集,并且会持续更新,以降低数据污染的可能性。一支由奥林匹克竞赛奖牌得主组成的团队为每个问题标注了算法类别,并对模型生成的失败提交进行了逐行分析。通过使用这一新数据和基准测试,我们发现前沿模型仍然存在显著的局限性:在没有外部工具的情况下,表现最好的模型在中等难度问题上的通过率仅为 53%,而在高难度问题上则为 0%,而这些领域仍然是人类专家的强项。我们还发现,大型语言模型在实现密集型问题上表现出色,但在需要精细算法推理和复杂案例分析的问题上则显得力不从心,常常生成自信但错误的解释。高性能的表现似乎主要得益于实现的精确性和工具增强,而非更优越的推理能力。因此,LiveCodeBench Pro 明确指出了大型语言模型与人类大师级别之间的显著差距,同时提供了细致的诊断工具,以指导未来代码为中心的 LLM 推理能力的改进方向。
448
热度
PDF
解读
Data-driven approaches to inverse problems
2025年06月13日
反问题关注的是利用间接测量来重建未知的物理量,其在众多领域中具有基础性意义,例如医学成像、遥感和材料科学。这些问题为可视化肉眼不可见的内部结构提供了关键工具,从而实现量化、诊断、预测和发现。然而,大多数反问题是不适定的,需要稳健的数学处理才能得出有意义的解。尽管经典方法能够提供数学上严谨且计算稳定的解,但它们受限于对解的性质进行准确建模以及高效实现的能力。 一种更近期的范式是通过数据驱动的方式求解反问题。这种方法不依赖于经典的数学建模,而是使用高度过参数化的模型(通常是深度神经网络),并通过精心选择的训练数据将其适应于特定的反问题。当前遵循这一新范式的做法以其解决方案的高精度和前所未有的计算效率而脱颖而出。 本讲义旨在介绍反问题的数据驱动范式。讲义的第一部分将介绍反问题的基本概念,讨论经典求解策略,并展示一些应用实例。第二部分将深入探讨现代数据驱动方法,特别关注对抗性正则化以及可证明收敛的线性插件去噪器。在阐述这些方法的过程中,将讨论它们的理论性质,并提供数值示例。讲座系列将以对领域内开放问题及未来研究方向的讨论作为结尾。
345
热度
PDF
解读
pLSTM: parallelizable Linear Source Transition Mark networks
2025年06月13日
现代循环架构,例如 xLSTM 和 Mamba,在语言建模方面最近对 Transformer 构成了挑战。然而,它们的结构限制了其仅适用于序列数据,或者需要以预定义的顺序处理多维数据结构,如图像或分子图。相比之下,多维循环神经网络(MDRNNs)非常适合具有更高层次结构的数据,例如二维网格、树和有向无环图(DAGs)。在本工作中,我们将多维性的概念扩展到了线性 RNN。我们引入了可并行化的线性源转换标记网络(pLSTMs),该网络使用源门、转换门和标记门作用于一般 DAG 的线图。这使得可以类似并行关联扫描以及顺序线性 RNN 的分块递归形式的方式对 DAG 进行并行化。对于规则网格(如一维和二维图像),该方案可以通过 einsum 操作、拼接和填充在对数时间内高效实现。pLSTMs 通过两种不同的模式解决了 DAG 中长距离的激活/梯度消失或爆炸问题:一种是有向传播模式(P-模式),另一种是扩散分布模式(D-模式)。为了展示 pLSTM 的长程能力,我们引入了一种合成计算机视觉任务——箭头指向外推,其中包含长距离的方向信息。我们证明了 pLSTMs 在更大的图像尺寸上具有良好的泛化能力,而 Transformer 在外推时表现困难。在已建立的分子图和计算机视觉基准测试中,pLSTMs 同样表现出强大的性能。代码和数据集可在以下链接获取:https://github.com/ml-jku/plstm_experiments。
220
热度
PDF
解读
Kinetics: Rethinking Test-Time Scaling Laws
2025年06月05日
我们从实际效率的角度重新审视了测试阶段的扩展规律,发现较小模型的有效性被显著高估。以往的研究基于计算最优性,忽略了推理阶段策略(例如 Best-of-$N$、长链推理)引入的关键内存访问瓶颈。我们的整体分析涵盖了从 0.6B 到 32B 参数的模型,并揭示了一条新的“动力学扩展定律”,该定律通过结合计算和内存访问成本,为资源分配提供了更好的指导。动力学扩展定律表明,在测试阶段,计算资源用于超过某个阈值的较大模型比用于小模型更有效。其主要原因在于,测试阶段中,注意力机制的成本而非参数数量成为了主导因素。 受此启发,我们提出了一种以稀疏注意力为中心的新扩展范式,该范式降低了每 token 的计算成本,同时在相同资源预算下支持更长的生成序列和更多的并行样本。实证结果表明,稀疏注意力模型在低资源条件下比密集注意力模型高出超过 60 分,在高资源条件下仍能高出超过 5 分,特别是在 AIME 问题解决准确性评估中表现突出,包括对最新 MoE 模型的评测。这些结果表明,随着更多计算资源的投入,稀疏注意力变得愈发重要,是充分释放测试阶段扩展潜力的关键所在。与训练不同的是,在测试阶段,准确率作为计算量的函数尚未饱和,并且通过增加生成长度可以持续改进。代码已开源,可访问 https://github.com/Infini-AI-Lab/Kinetics。
203
热度
PDF
解读