MAGDi: Structured Distillation of Multi-Agent Interaction Graphs Improves Reasoning in Smaller Language Models

2024年02月02日
  • 简介
    多个大型语言模型(LLM)代理之间的多智能体交互已经在各种推理任务中显示出了重大改进。然而,这些方法涉及多个模型之间的长时间生成以及多轮交互,因此成本较高。此外,这些多智能体方法无法提供一个最终的、高效的推理单一模型。为了解决这个问题,我们引入了MAGDi,一种新的方法,用于将多个LLM之间的推理交互结构化地蒸馏成更小的LM。MAGDi通过将多智能体交互表示为图形,增加图形编码器来辅助基本学生模型,并使用三个目标函数进行知识蒸馏:下一个标记预测、正确和错误推理之间的对比损失以及基于图形的目标函数来建模交互结构。我们在七个广泛使用的常识和数学推理基准上进行了实验,结果表明,MAGDi提高了更小模型的推理能力,优于从单个教师和多个教师蒸馏的几种方法。此外,MAGDi的效率也比其教师高一个数量级。我们进行了广泛的分析,以表明MAGDi(1)增强了对域外任务的泛化能力,(2)与基本学生模型的大小和强度呈正相关,(3)在应用自一致性(一种依赖于模型多样性的推理技术)时,能够获得更大的改进(通过我们的多教师训练)。
  • 图表
  • 解决问题
    MAGDi试图解决的问题是如何将多个LLMs之间的交互结构转化为更小的模型,以提高效率和推理能力。这是一个新问题。
  • 关键思路
    MAGDi的关键思路是使用图编码器将多个LLMs之间的交互结构表示为图,并使用三个目标函数进行知识蒸馏,包括下一个token的预测、正确和错误推理之间的对比损失以及基于图的目标函数。这种方法比单个或多个教师模型的知识蒸馏方法更有效。
  • 其它亮点
    论文的实验使用了7个常识和数学推理基准数据集,结果表明MAGDi提高了较小模型的推理能力,同时也比其教师模型提高了一个数量级的效率。此外,论文还展示了MAGDi具有更好的泛化能力、与基础学生模型的大小和强度呈正相关,并且通过使用多个教师模型进行自一致性推理可以获得更大的改进。
  • 相关研究
    最近的相关研究包括使用单个教师模型进行知识蒸馏,以及使用多个教师模型进行知识蒸馏。相关论文包括:《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》和《Multi-Teacher Knowledge Distillation for Large-Scale Task-Oriented Dialogue Systems》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论