APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

2025年04月04日
  • 简介
    训练有效的多轮交互AI代理需要高质量的数据,以捕捉真实的人机互动动态,然而这类数据稀缺且手动收集成本高昂。我们提出了APIGen-MT,一个两阶段框架,用于生成可验证且多样化的多轮代理数据。在第一阶段,我们的代理管道生成包含真实动作的任务蓝图,借助大型语言模型(LLM)评审委员会和迭代反馈循环来优化。这些蓝图随后通过模拟的人机交互转化为完整的交互轨迹。我们训练了一系列模型——xLAM-2-fc-r系列,参数规模从10亿到700亿不等。我们的模型在τ-bench和BFCL基准测试中超越了前沿模型(如GPT-4o和Claude 3.5),特别是小型模型在多轮设置中表现优于大型模型,同时在多次试验中保持更高的稳定性。全面的实验表明,我们基于“验证蓝图到细节”的方法能够生成高质量的训练数据,从而推动更可靠、高效和强大的代理开发。我们开源了合成数据和训练好的xLAM-2-fc-r模型,以促进AI代理领域的研究进展。模型可在HuggingFace上获取,地址为https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4,项目网站为https://apigen-mt.github.io。
  • 图表
  • 解决问题
    论文试图解决多轮交互式AI代理训练中高质量数据稀缺且昂贵的问题,尤其是能够捕捉真实人类-代理互动动态的数据。这是一个长期存在的问题,但本研究提出了一种新颖的生成方法来缓解这一挑战。
  • 关键思路
    论文提出了一个名为APIGen-MT的两阶段框架:第一阶段通过基于LLM的委员会评审和迭代反馈生成详细的任务蓝图,并附带真实动作标签;第二阶段将这些蓝图转化为完整的多轮交互轨迹。这种方法不仅生成了可验证的数据,还显著提高了训练数据的质量和多样性,从而提升代理模型在多轮对话中的表现。
  • 其它亮点
    1. 训练出的xLAM-2-fc-r系列模型在τ-bench和BFCL基准测试中超越了GPT-4o和Claude 3.5等前沿模型,特别是在多轮设置下,小规模模型的表现甚至优于大规模模型。 2. 提出了‘蓝图到细节’的方法,确保生成的数据具有高可信度和一致性。 3. 开源了合成数据集和训练好的模型(可在HuggingFace上获取),并提供了项目网站供进一步研究。 4. 实验设计全面,覆盖了多个评价指标和多次试验以验证模型的可靠性与效率。
  • 相关研究
    相关研究包括: 1. 「Dialogue Modeling with Large Language Models」 - 探索使用大规模语言模型生成对话数据。 2. 「Synthetic Data Generation for Dialogue Systems」 - 针对对话系统提出合成数据生成技术。 3. 「Improving Multi-turn Conversational Agents」 - 研究如何优化多轮对话代理的表现。 4. 「Verifiable Data Synthesis for AI Agents」 - 提出可验证数据合成方法以增强代理性能。 这些研究共同推动了多轮交互式代理的发展,而本论文的独特之处在于其结合了详细的任务蓝图和模拟的人类-代理互动。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论