- 简介我们推出了 INTELLECT-2,这是首个针对320亿参数语言模型的全球分布式强化学习(RL)训练运行。与传统的集中式训练方法不同,INTELLECT-2 通过一个动态、异构的无许可计算贡献者群体,使用完全异步的强化学习来训练推理模型。 为了在这种独特的基础设施上实现训练运行,我们从零开始构建了多个组件:我们引入了 PRIME-RL,这是我们专为分布式异步强化学习设计的训练框架。它基于一些创新组件构建,例如 TOPLOC,它可以验证来自不可信推理工作节点的 rollout;以及 SHARDCAST,它能够高效地将策略权重从训练节点广播到推理工作节点。 除了基础设施组件外,我们还提出了对标准 GRPO 训练方法的改进和数据过滤技术,这些对于实现训练稳定性至关重要,并确保我们的模型成功学会了其训练目标,从而改进了 QwQ-32B——这一参数范围内的当前最先进的推理模型。 我们开源了 INTELLECT-2 及其所有代码和数据,希望推动并促进去中心化训练领域的更多开放研究。
- 图表
- 解决问题该论文试图解决如何在动态、异构的分布式计算环境中训练大规模语言模型(32亿参数)的问题,特别是通过强化学习优化推理能力。这是一个相对较新的问题,因为大多数现有的大规模模型训练依赖于集中式计算资源。
- 关键思路论文提出了一种全新的分布式强化学习框架PRIME-RL,结合了用于验证未受信任推理工作者的组件TOPLOC和高效广播策略权重的SHARDCAST。这种方法允许模型在不受限的、异构的计算节点上进行完全异步的训练。相比传统的集中式方法,这种方法显著降低了对单一基础设施的依赖,并提高了训练的灵活性。
- 其它亮点论文提出了多个技术创新点:1) PRIME-RL框架支持大规模分布式强化学习;2) 引入了TOPLOC以确保数据安全性;3) SHARDCAST提升了权重分发效率。实验设计包括对标准GRPO训练方法的改进以及数据过滤技术的应用,从而实现训练稳定性。此外,论文开源了INTELLECT-2模型及其代码和数据,为未来的研究提供了宝贵资源。值得深入研究的方向包括进一步优化异步训练算法和扩展到更大规模的模型。
- 近期相关研究包括:1) QwQ-32B,当前32亿参数范围内的最佳推理模型;2) Google的GShard项目,探索了分布式训练中的分片技术;3) Microsoft的DeepSpeed,专注于提升大规模模型训练效率;4) OpenAI的分布式训练实践,如Distributed Data Parallel等。其他类似工作还包括Facebook的Fairscale和Uber的Horovod,但这些方法主要集中在同步或部分异步训练,而本论文则实现了完全异步的训练模式。
沙发等你来抢
去评论
评论
沙发等你来抢