Kimi k1.5: Scaling Reinforcement Learning with LLMs

2025年01月22日
  • 简介
    使用下一个标记预测的语言模型预训练已被证明在扩展计算资源方面非常有效,但受限于可用训练数据的数量。扩展强化学习(RL)为人工智能的持续改进开辟了新的方向,有望使大型语言模型(LLMs)通过奖励机制学习探索,从而扩展其训练数据。然而,先前发表的工作尚未产生具有竞争力的结果。鉴于此,我们报告了Kimi k1.5的训练实践,这是我们最新的多模态LLM,采用RL进行训练,包括其RL训练技术、多模态数据配方和基础设施优化。长上下文扩展和改进的策略优化方法是我们方法的关键要素,建立了简单而有效的RL框架,无需依赖更复杂的技巧,如蒙特卡洛树搜索、价值函数和过程奖励模型。值得注意的是,我们的系统在多个基准测试和模态上实现了最先进的推理性能——例如,在AIME上达到77.5分,在MATH 500上达到96.2分,在Codeforces上达到第94百分位,在MathVista上达到74.9分——与OpenAI的o1相当。此外,我们提出了有效的长到短(long2short)方法,利用长链思考(long-CoT)技术来改进短链思考(short-CoT)模型,从而在短-CoT推理方面取得最先进的结果——例如,在AIME上达到60.8分,在MATH500上达到94.6分,在LiveCodeBench上达到47.3分——大幅超越现有的短-CoT模型,如GPT-4o和Claude Sonnet 3.5(最高提升达550%)。
  • 图表
  • 解决问题
    该论文试图解决大型语言模型(LLM)在训练过程中依赖大量数据的问题,并探索通过强化学习(RL)来扩大训练效果,从而提高多模态任务的性能。这是一个相对较新的问题,因为大多数现有的研究主要集中在预训练和微调方法上,而较少关注如何利用RL来优化和扩展LLM的能力。
  • 关键思路
    关键思路是通过使用强化学习(RL)来训练多模态大型语言模型(LLM),特别是通过奖励机制让模型学会更有效的探索。与传统方法不同,作者采用了长上下文扩展和改进的策略优化方法,而不是依赖复杂的蒙特卡洛树搜索、价值函数或过程奖励模型。这种方法不仅简化了RL框架,还显著提升了模型在多个基准测试中的表现。
  • 其它亮点
    论文的亮点包括:1) Kimi k1.5模型在多个基准测试中取得了最先进的成绩,例如AIME、MATH 500、Codeforces等;2) 提出了从长链思考(long-CoT)到短链思考(short-CoT)的有效转换方法,大幅提升了短链思考模型的表现;3) 使用了多模态数据集进行训练,展示了模型在不同任务上的泛化能力;4) 实验设计详尽,涵盖了多种任务类型和评估指标;5) 虽然没有提及代码开源情况,但提供了详细的训练实践和技术细节,为后续研究提供了宝贵参考。
  • 相关研究
    最近在这个领域中,相关的研究包括:1) OpenAI的o1模型,同样在多模态任务中表现出色;2) GPT-4o和Claude Sonnet 3.5,这些模型在短链思考任务上有较强的表现;3) 其他关于强化学习与语言模型结合的研究,如《Reinforcement Learning for Text Generation: A Survey》和《Improving Language Models with Reinforcement Learning from Human Feedback》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论