- 简介强化学习(RL)在提升大语言模型(LLM)的推理能力方面已展现出巨大潜力。然而,当前将强化学习应用于大语言模型的成功严重依赖人工整理的数据集和可验证的奖励机制,这限制了其可扩展性和通用性。近期出现的自对弈强化学习方法受到该范式在游戏和围棋领域成功应用的启发,旨在无需人工标注数据的情况下增强大语言模型的推理能力。但这些方法主要依赖于具有明确反馈环境的系统(例如Python解释器或游戏引擎),难以推广到更广泛的通用领域。为应对上述挑战,我们提出了多智能体进化框架(Multi-Agent Evolve, MAE),使大语言模型能够在解决各类任务(包括数学问题、逻辑推理以及通用知识问答)的过程中实现自我进化。MAE的核心设计基于由同一语言模型实例化的三个相互协作的智能体——提议者(Proposer)、解题者(Solver)和评判者(Judge),并通过强化学习优化它们的行为。其中,提议者生成问题,解题者尝试解答,评判者则对两者的表现进行评估,并推动三者共同进化。在Qwen2.5-3B-Instruct模型上的实验表明,MAE在多个基准测试中平均提升了4.54%的性能。结果证明,MAE是一种可扩展且数据效率高的方法,能够在极少依赖人工干预的前提下有效增强大语言模型的通用推理能力。
- 图表
- 解决问题论文试图解决如何在不依赖人类标注数据和可验证奖励的情况下,提升大语言模型(LLMs)的通用推理能力的问题。当前基于强化学习(RL)的方法严重依赖人工构建的数据集和结构化环境反馈(如Python解释器),限制了其在开放域任务中的扩展性和普适性。这个问题在迈向真正自主、自进化的语言模型过程中是一个关键挑战,虽然已有相关探索,但实现无需外部监督的自我进化仍属前沿且具有新颖性。
- 关键思路提出Multi-Agent Evolve(MAE)框架,通过从同一个大语言模型实例化三个协同进化的智能体——Proposer(生成问题)、Solver(求解问题)、Judge(评估解答与问题质量)——构建一个闭环的多智能体自我博弈系统。该框架利用强化学习机制联合优化三者行为,在无须人类标注或外部执行环境的前提下实现LLM的自我演化。其创新在于将Self-Play思想从游戏领域迁移至通用语言推理任务,并通过三元智能体架构实现无监督下的持续学习与能力提升。
- 其它亮点实验基于Qwen2.5-3B-Instruct模型,在数学、逻辑推理和常识问答等多个基准上实现了平均4.54%的性能提升,验证了方法的有效性与泛化能力。整个框架无需人工标注数据或代码执行环境,显著提升了数据效率与部署灵活性。目前论文未明确提及是否开源代码,但该方法为轻量级RL训练提供了新范式,未来值得深入研究方向包括:扩展到更大规模模型、引入记忆机制以支持长期进化、探索更多智能体角色分工,以及应用于个性化教育、自动知识发现等场景。
- 1. ‘Self-Play Fine-Tuning: Improving the Generalization of Language Models through Self-Generated Feedback’ 2. ‘LATS: Language Agent Tree Search Unifies Reasoning and Acting in Language Models’ 3. ‘Reinforced Self-Training (RST) for Solving Math Word Problems’ 4. ‘Open-Ended Learning Frameworks for Language Model Agents’ 5. ‘CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing’


提问交流