每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization
2025年07月20日
大型语言模型(LLM)驱动的智能体的出现,通过基于网络的信息检索(IS)能力,使人工智能在解决复杂且开放性的任务方面发生了革命性的变化。然而,高质量训练数据的匮乏限制了信息检索智能体的发展。现有的方法通常采用一种以信息为中心的范式,即首先收集网络数据,然后基于检索结果生成问题。但这种方法可能导致信息结构与推理结构、问题与答案之间出现不一致。为缓解这一问题,我们提出了一种以形式化驱动的信息检索数据合成框架WebShaper,用于构建高质量的数据集。 WebShaper通过集合论对信息检索任务进行系统的形式化表达。其核心在于“知识投影”(Knowledge Projections,KP)这一概念,它通过KP操作的组合,实现了对推理结构的精确控制。在数据合成过程中,我们首先创建初始任务,然后采用多步骤扩展流程逐步生成更复杂的任务。在每一步中,一个具备代理能力的“扩展器”(Expander)会基于我们的形式化框架,利用检索和验证工具将当前的问题形式逐步扩展得更为复杂。我们使用该合成数据集对模型进行训练。实验结果表明,WebShaper在GAIA和WebWalkerQA两个信息检索智能体基准测试中,在开源模型中达到了最先进的性能水平。
7002
热度
PDF
解读
SpikingBrain Technical Report: Spiking Brain-inspired Large Models
2025年09月05日
主流的基于Transformer的大语言模型面临着严重的效率瓶颈:训练计算量随着序列长度呈平方级增长,而推理时内存则线性增长,这限制了对长上下文的处理能力。在非NVIDIA平台上构建大模型也对稳定且高效的训练提出了挑战。为此,我们提出了SpikingBrain,这是一系列受大脑启发的模型,专为高效进行长上下文训练和推理而设计。SpikingBrain依托MetaX GPU集群,从三个方面展开工作:(1)模型架构:采用线性注意力和混合线性注意力架构,并引入自适应脉冲神经元;(2)算法优化:构建高效的基于转换的训练流程,并设计专用的脉冲编码框架;(3)系统工程:开发了针对MetaX硬件定制的训练框架、算子库以及并行策略。 通过这些技术,我们构建了两个模型:SpikingBrain-7B,一个线性注意力的大语言模型,以及SpikingBrain-76B,一个混合线性注意力的专家混合(MoE)大语言模型。这些模型验证了在非NVIDIA平台上进行大规模大语言模型开发的可行性。SpikingBrain在仅使用约1500亿token进行持续预训练的情况下,即可实现与开源Transformer基线模型相当的性能。我们的模型显著提升了长序列训练的效率,并实现了(部分)恒定内存占用和事件驱动的脉冲推理行为。例如,对于400万token的长序列,SpikingBrain-7B在“首字生成时间”(Time to First Token)上实现了超过100倍的加速。在数百块MetaX C550 GPU上,训练可以稳定运行数周,其中7B模型达到了23.4%的模型FLOPs利用率。所提出的脉冲机制实现了69.15%的稀疏性,从而支持低功耗运行。总体而言,本研究展示了受大脑启发的机制在推动下一代高效、可扩展的大模型设计方面的巨大潜力。
176
热度
PDF
解读