每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning
2025年06月30日
近期强化学习的进展表明,语言模型通过在具有可验证奖励的任务上进行训练,可以发展出复杂的推理能力,但这些方法依赖于人工整理的问题-答案对以及特定领域的奖励工程。我们提出了SPIRAL这一自博弈框架,让模型通过与不断自我提升的版本进行多轮、零和博弈来学习,从而消除了对人类监督的需求。通过自博弈,SPIRAL生成了一个无限进阶的课程,问题难度逐步增加,因为模型必须不断适应更强的对手。 为了实现大规模的这种自博弈训练,我们构建了一个完全在线的、支持多轮次、多智能体的强化学习系统,并提出了角色条件优势估计(RAE)以稳定多智能体训练过程。使用SPIRAL,在零和博弈中的自博弈训练能够产生广泛迁移的推理能力。仅在Kuhn Poker游戏上训练Qwen3-4B-Base,就在数学任务上取得了8.6%的提升,在通用推理任务上提升了8.4%,表现优于在25,000条专家游戏轨迹上进行监督微调(SFT)的结果。 分析显示,这种能力迁移是通过三种认知模式实现的:系统性分解、期望值计算以及逐案分析。多游戏训练(包括井字棋、Kuhn Poker和简单谈判)进一步增强了整体性能,因为每种游戏培养了不同的推理优势。将SPIRAL应用于一个本身已经具备强大推理能力的模型(DeepSeek-R1-Distill-Qwen-7B)仍能带来平均2.0%的提升。这些结果表明,零和博弈能够自然地发展出可迁移的推理能力,为实现自主推理发展提供了一条有前景的方向。
907
热度
PDF
解读
Spark Transformer: Reactivating Sparsity in FFN and Attention
2025年06月07日
在训练好的 Transformer 中发现的“懒惰神经元”现象表明,对于每个 token,其前馈网络(FFN)中的绝大多数神经元都处于非激活状态。这一发现引发了对激活稀疏性研究的极大兴趣,以提升大规模模型的效率。尽管在将这种稀疏性转化为实际运行时间收益方面已取得显著进展,但现代 Transformer 已逐渐远离了对该现象至关重要的 ReLU 激活函数。重新引入激活稀疏性的现有方法往往会导致模型质量下降、参数数量增加,或者使训练过程复杂化甚至变慢。而稀疏注意力(即将稀疏激活应用于注意力机制)通常也面临类似的挑战。 本文提出了 Spark Transformer,这是一种新颖的架构,能够在 FFN 和注意力机制中实现高水平的激活稀疏性,同时保持模型质量、参数数量和标准训练流程不变。我们的方法通过 top-k 掩码实现稀疏性,从而对稀疏性水平进行显式控制。关键在于,我们引入了统计 top-k,这是一种硬件加速器友好的、线性时间近似算法,能够避免昂贵的排序操作,并缓解标准 top-k 操作带来的显著训练减速问题。此外,Spark Transformer 重新分配现有的 FFN 参数和注意力键嵌入,构建了一个低成本的预测器,用于识别激活项。这一设计不仅减轻了强制稀疏性带来的质量损失,还进一步提升了运行时间收益。通过 Gemma-2 预训练方案,Spark Transformer 在标准基准测试中表现出竞争力,同时展现出显著的稀疏性:仅 8% 的 FFN 神经元被激活,且每个 token 最多只关注 256 个 token。这种稀疏性使得浮点运算量(FLOPs)减少了 2.5 倍,从而在 CPU 上实现了高达 1.79 倍的解码运行时间加速,在 GPU 上则达到了 1.40 倍的加速效果。
644
热度
PDF
解读
Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task
2025年06月10日
本研究探讨了大型语言模型(LLM)辅助写作对神经活动和行为的影响。参与者被分为三组:LLM组、搜索引擎组和纯脑力组(无工具辅助)。每组在相同条件下完成了三次写作任务。在第四次任务中,LLM组的参与者被重新分配到纯脑力组(LLM转纯脑力),而纯脑力组的参与者则被重新分配到LLM组(纯脑力转LLM)。共有54名参与者完成了前三个阶段的任务,其中18人完成了第四阶段的任务。我们通过脑电图(EEG)评估写作过程中的认知负荷,并使用自然语言处理(NLP)技术分析文章内容,同时结合人类教师和AI评分系统对文章进行评分。 结果表明,在各组内部,命名实体识别(NER)、n-gram模式和主题本体均表现出较高的同质性。脑电图数据显示,不同组别的大脑连接性存在显著差异:纯脑力组的大脑网络最为强大且分布广泛;搜索引擎组表现出中等程度的参与度;而LLM组的大脑连接性最弱。认知活动随着外部工具使用的增加而逐渐减少。在第四阶段任务中,从LLM转为纯脑力的参与者显示出α波和β波连接性的降低,表明其参与度不足。而从纯脑力转为LLM的参与者则表现出更高的记忆回忆能力以及枕叶-顶叶和额叶区域的激活,这一表现与搜索引擎组相似。 此外,自评结果显示,LLM组对文章的“所有权”感最低,而纯脑力组最高。值得注意的是,LLM组的参与者在准确引用自己作品方面也遇到了困难。尽管LLM提供了即时便利,但我们的研究揭示了其可能带来的认知成本。在为期四个月的研究中,LLM组在神经、语言和行为层面的表现始终逊于其他组别。这些结果引发了对长期依赖LLM在教育领域影响的担忧,并强调了深入探究人工智能在学习中角色的重要性。
541
热度
PDF
解读
Sequential Diagnosis with Language Models
2025年06月27日
人工智能在扩大获取专家级医学知识和推理能力方面具有巨大潜力。然而,目前对语言模型的大多数评估依赖于静态病例摘要和多项选择题,这些方法无法反映真实世界中循证医学的复杂性和细微差别。在临床实践中,医生会逐步形成并修正诊断假设,根据最新获得的信息调整后续的问题和检查,并在做出最终诊断之前权衡不断演变的证据。 为了模拟这一迭代过程,我们推出了“顺序诊断基准测试”(Sequential Diagnosis Benchmark),将304个具有诊断挑战性的《新英格兰医学杂志》临床病理讨论(NEJM-CPC)案例转化为逐步推进的诊断场景。一名医生或AI从一段简短的病例摘要开始,必须逐步向一个“守门人模型”请求更多信息,该模型仅在被明确询问时才会揭示相关发现。评估标准不仅包括诊断准确性,还包括问诊和检查所带来的成本。 我们还提出了MAI诊断协调器(MAI-DxO),这是一种与模型无关的协调系统,可模拟一组医生的行为,提出可能的鉴别诊断,并战略性地选择高价值、具成本效益的检查。当与OpenAI的o3模型配合使用时,MAI-DxO实现了80%的诊断准确率,是全科医生平均20%准确率的四倍。与医生相比,MAI-DxO还可将诊断成本降低20%,与直接使用现成的o3模型相比则降低了70%。在追求最高准确性的配置下,MAI-DxO的准确率达到85.5%。这些性能优势在多个主流模型家族(包括OpenAI、Gemini、Claude、Grok、DeepSeek 和 Llama系列模型)中均得以体现。 我们强调,当AI系统被引导以迭代思考和审慎行动的方式运作时,可以在临床诊疗中显著提升诊断的精准度和成本效益。
518
热度
PDF
解读