Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

2025年01月10日
  • 简介
    近年来,大型语言模型(LLMs)取得了显著的性能进步,但从根本上受到其训练数据的限制。为了使模型超越训练数据的局限,最近的研究探讨了如何利用LLMs生成合成数据以实现自主改进。然而,连续的自我改进步骤可能会达到收益递减的地步。 在本研究中,我们提出了一种互补的自我改进方法,即对多智能体社会的语言模型进行微调。一组语言模型从同一个基础模型开始,通过更新每个模型使用模型之间多智能体交互生成的数据,独立地进行专业化。通过对每个模型使用独立的数据集进行训练,我们展示了这种方法如何实现模型之间的专业化和模型集合的多样化。因此,我们的整体系统能够保留多样化的推理链,并且相比于单智能体自我改进方法,在更多的微调轮次中自主改进。我们在广泛的推理任务中定量地展示了该方法的有效性。
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLM)在自我改进过程中遇到的局限性问题,特别是单一模型在多轮自训练后容易达到收益递减的情况。这是一个新的研究方向,旨在通过多智能体系统来突破这一瓶颈。
  • 关键思路
    关键思路是构建一个多智能体社会,其中每个智能体都是从同一个基础模型开始,但通过多智能体交互生成的数据进行独立的微调和专业化训练。这使得每个模型能够在不同的数据集上发展出独特的专长,从而保持多样化的推理链条,并允许系统在更多的微调轮次中持续改进。相比传统的单智能体自改进方法,这种方法能够更有效地避免过拟合和收益递减。
  • 其它亮点
    论文展示了如何通过多智能体交互生成合成数据来进行模型的多样化和专业化。实验设计涵盖了广泛的推理任务,验证了该方法的有效性。虽然没有提及具体的开源代码或数据集,但研究强调了模型的自主改进能力和多样性的重要性,为未来的研究提供了新的方向,特别是在多智能体协作和持续学习方面。
  • 相关研究
    最近在这个领域内,相关的研究包括:1. 使用强化学习优化语言模型的自我改进过程;2. 探索通过人类反馈改进语言模型的方法;3. 研究如何通过合成数据增强模型的表现。相关研究的论文标题如《Self-Improving Language Models via Human Feedback》、《Synthetic Data Augmentation for Continuous Learning in LLMs》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论