每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
RePo: Language Models with Context Re-Positioning
2025年12月16日
上下文学习是现代大语言模型(LLM)的核心机制;然而,当前主流架构通过分配线性或固定的常数位置索引来强加一种僵化且固定不变的上下文结构。基于认知负荷理论(Cognitive Load Theory, CLT),我们认为这种缺乏信息性的结构会增加外在认知负荷,消耗本应用于深度推理和注意力分配的有限工作记忆资源。为解决这一问题,我们提出了一种名为RePo的新机制,通过重新调整上下文的位置来降低不必要的认知负担。与标准方法不同,RePo采用一个可微模块 $f_φ$ 来动态分配能够反映上下文依赖关系的标记位置,而非依赖预定义的整数范围。我们在OLMo-2 1B模型基础上持续进行预训练,结果表明,RePo在处理包含噪声上下文、结构化数据以及长上下文的任务中显著提升了性能,同时在通用的短上下文任务上仍保持具有竞争力的表现。详细分析显示,RePo能够更有效地关注距离较远但相关的信息,将位置分配到密集且非线性的空间中,并捕捉输入上下文的内在结构。我们的代码已公开于 https://github.com/SakanaAI/repo。
852
热度
许愿开讲
PDF
解读
Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation
2025年10月25日
我们推出Ling 2.0,这是一系列以“每次激活均提升推理能力”为核心理念构建的、面向推理的语言基础模型。Ling 2.0基于统一的专家混合(MoE)范式设计,可从数百亿参数规模扩展至一万亿参数,强调高稀疏性、跨尺度一致性,并依据实证缩放规律实现高效训练。该系列包含三个非思考型(指令遵循)模型:Ling-mini-2.0、Ling-flash-2.0 和 Ling-1T,总参数量从160亿到一万亿不等,在激活计算效率方面最高可达同等稠密模型的7倍。Ling 2.0 在模型架构、预训练、后训练及基础设施层面实现了协同创新:采用支持MTP的高稀疏度MoE结构以实现高效推理;构建面向推理的数据集并引入中期训练思维链(CoT)激活机制;应用基于强化学习的微调方法(DFT、Evo-CoT);以及通过细粒度异构流水线实现全规模FP8训练。在万亿参数级别,Ling-1T 在推理准确性与计算效率之间建立了新的帕累托前沿,表明当稀疏激活与推理目标恰当对齐时,能够实现可扩展且高效的智能。总体而言,Ling 2.0 为推进未来的推理与思考模型提供了一个连贯、开放且高效的基石,包括建立在同一基础之上的Ring系列模型。
762
热度
许愿开讲
PDF
解读
LongCat-Flash Technical Report
2025年09月01日
我们推出LongCat-Flash,这是一款拥有5600亿参数的专家混合(MoE)语言模型,专为实现计算效率与先进代理能力而设计。出于对可扩展效率的需求,LongCat-Flash采用了两项创新设计:(a)零计算专家(Zero-computation Experts),该机制支持动态分配计算资源,根据上下文需求,每个token激活186亿至313亿参数(平均270亿),从而优化资源利用;(b)捷径连接的MoE(Shortcut-connected MoE),通过扩大计算与通信重叠的时间窗口,在推理效率和吞吐量方面相比同等规模模型表现出显著提升。我们开发了一套全面的大型模型扩展训练框架,结合超参数迁移、模型增长初始化、多维度稳定性保障措施以及确定性计算,实现了稳定且可复现的训练过程。尤为值得一提的是,依托可扩展的架构设计与基础设施的协同优化,我们在30天内完成了超过20万亿token的模型训练,同时实现了每秒超过100个token(TPS)的推理速度,输出每百万token的成本仅为0.70美元。为了推动LongCat-Flash向代理智能发展,我们首先在优化的数据混合上进行大规模预训练,随后针对推理、代码生成和指令遵循等任务开展有重点的中期与后期训练,并进一步引入合成数据和工具使用任务以增强模型能力。全面评估表明,作为一款非“思维链”型的基础模型,LongCat-Flash在众多领先模型中展现出极具竞争力的性能,尤其在代理类任务中表现卓越。LongCat-Flash的模型权重已开源,以促进学术界和社区的研究发展。 LongCat 聊天入口:https://longcat.ai Hugging Face 页面:https://huggingface.co/meituan-longcat GitHub 仓库:https://github.com/meituan-longcat
762
热度
许愿开讲
PDF
解读
MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
2025年06月16日
我们推出了 MiniMax-M1,这是世界上首个开放权重、大规模的混合注意力推理模型。MiniMax-M1 采用了混合专家架构(MoE)与闪电注意力机制相结合的设计。该模型基于我们之前的 MiniMax-Text-01 模型开发,后者总共包含 4560 亿参数,每个 token 激活 45.9 亿参数。M1 模型原生支持 100 万 token 的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。此外,MiniMax-M1 中的闪电注意力机制能够高效扩展测试时的计算需求。这些特性使得 M1 特别适合处理需要长输入和深度思考的复杂任务。 MiniMax-M1 使用大规模强化学习(RL)在多样化的任务上进行训练,包括基于沙盒的和真实世界软件工程环境中的问题。除了 M1 在 RL 训练中固有的效率优势外,我们还提出了一种新的 RL 算法——CISPO,以进一步提升 RL 效率。CISPO 对重要性采样权重进行裁剪,而非对 token 更新裁剪,从而超越了其他具有竞争力的 RL 变体。通过结合混合注意力机制与 CISPO,MiniMax-M1 的完整 RL 训练可以在仅使用 512 张 H800 GPU 的情况下于三周内完成,租赁成本仅为 534,700 美元。 我们发布了两种版本的 MiniMax-M1 模型,分别具有 40K 和 80K 的“思考预算”,其中 40K 模型代表了 80K 模型训练过程中的中间阶段。在标准基准测试中的实验表明,我们的模型在性能上与强大的开放权重模型(如原始的 DeepSeek-R1 和 Qwen3-235B)相当或更优,尤其在复杂软件工程、工具利用和长上下文任务方面表现出色。我们已公开发布 MiniMax-M1,相关资源可访问 https://github.com/MiniMax-AI/MiniMax-M1 获取。
761
热度
许愿开讲
PDF
解读
Reasoning Models Generate Societies of Thought
2026年01月15日
大语言模型已在多个领域展现出卓越的能力,但其复杂推理能力背后的机制仍不明确。近期出现的推理模型在复杂的认知任务中表现优于同等规模的指令微调模型,这通常归因于通过更长思维链所实现的扩展计算。本文表明,推理能力的提升并不仅仅源于扩展计算,而关键在于模拟多智能体式的交互——即“思维社会”——这种机制使得内部认知视角之间产生多样化和辩论,这些视角具有不同的人格特质和领域专长。通过对推理轨迹进行定量分析和基于机制的可解释性研究,我们发现,诸如DeepSeek-R1和QwQ-32B等推理模型展现出远超指令微调模型的视角多样性,在推理过程中激活了更多涉及异质人格特征与专业能力之间的冲突。这种多智能体结构体现在对话行为中,包括问答、视角转换以及对矛盾观点的调和,同时也体现在塑造激烈交锋式对话的社会情感角色上,共同促成了推理任务中的准确率优势。通过受控的强化学习实验发现,基础模型在仅因推理准确性获得奖励时,会自发增加对话行为;而使用对话式结构对模型进行微调,则能比基础模型更快地提升推理能力。这些结果表明,思维的社会化组织有助于对解空间进行高效探索。我们提出,推理模型在计算层面实现了人类群体中集体智能的类比:当多样性被系统性地组织起来时,便能实现更优的问题解决能力,这也为通过智能体组织来汇聚群体智慧开辟了新的可能路径。
380
热度
许愿开讲
PDF
解读
GWM: Towards Scalable Gaussian World Models for Robotic Manipulation
2025年08月25日
在机器人操作任务中,由于真实世界交互效率低下,基于学习得到的世界模型来训练机器人策略正成为一种趋势。现有的基于图像的世界模型与策略虽已取得一定成果,但缺乏对三维世界的稳定空间结构和物理规律的理解能力,即便使用互联网规模的视频数据进行预训练,这类模型仍难以提供可靠的几何信息。针对这一问题,我们提出了一种新型的世界模型分支——高斯世界模型(Gaussian World Model, GWM),该模型通过推断机器人动作影响下高斯基元的传播来重建未来状态。其核心是一个结合了三维变分自编码器的隐式扩散变换器(Diffusion Transformer, DiT),借助高斯点阵化(Gaussian Splatting)实现细粒度的场景级未来状态重建。GWM不仅能通过自监督的未来预测训练增强模仿学习智能体的视觉表征能力,还可作为支持基于模型的强化学习的神经仿真器。仿真实验与真实世界实验均表明,GWM能够精确地根据不同的机器人动作预测未来的场景,并可用于训练出显著优于当前最先进方法的策略,展现出三维世界模型在数据规模扩展方面的初步潜力。
347
热度
许愿开讲
PDF
解读