Automatically Generating Numerous Context-Driven SFT Data for LLMs across Diverse Granularity

2024年05月26日
  • 简介
    从自定义语料库中构建高质量的查询-响应对对于许多应用程序中监督微调(SFT)大型语言模型(LLM)至关重要,例如创建特定领域的AI助手或角色扮演代理。然而,通过人工注释获取这些数据成本高,现有的自动化方法通常无法捕捉到多样化的上下文细粒度范围,并且往往会产生同质化的数据。为了解决这些问题,我们引入了一种名为AugCon的新方法,能够自动产生多种级别上下文驱动的SFT数据,具有高度多样性、质量和保真度。AugCon首先使用Context-Split-Tree(CST)生成查询,这是一种创新的方法,可以递归地推导查询并分割上下文以覆盖全面的细粒度。然后,我们通过对比学习训练一个评分器,与CST协作对查询进行排名和精炼。最后,引入了自我对齐和自我改进的协同集成,以获得高保真度的响应。我们进行了广泛的实验,包括测试场景和英语和中文中的四个广泛使用的基准测试,其中包括人工和自动评估。结果突出了AugCon在产生高多样性、高质量和高保真度的SFT数据方面相对于几种最先进的方法的显着优势。我们的所有代码、数据集和微调模型都将在https://github.com/quanshr/AugCon上提供。
  • 图表
  • 解决问题
    论文旨在解决通过人工注释构建高质量的查询-响应对数据在监督微调大型语言模型中的高昂成本问题,并提出一种自动化方法来生成高质量的数据。
  • 关键思路
    论文提出了一种名为AugCon的方法,通过使用上下文分割树(CST)生成查询、训练一个评分器来排名和优化查询、并引入自对齐和自我改进的协同集成来获得高保真度的响应,从而自动地生成多层次、高多样性、高质量和高保真度的上下文驱动的监督微调数据。
  • 其它亮点
    论文的实验结果表明,AugCon相对于其他现有的自动化方法在产生高多样性、高质量和高保真度的监督微调数据方面具有显著优势。该方法在多个基准数据集和测试场景中进行了广泛的实验,同时提供了开源代码、数据集和微调模型。
  • 相关研究
    在相关研究方面,论文提到了一些使用自动化方法生成监督微调数据的方法,如GPT-3、CTRL和DialoGPT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论