Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

2024年06月12日
  • 简介
    高质量的指导数据对于对齐大型语言模型(LLMs)至关重要。尽管一些模型,如Llama-3-Instruct,具有公开的权重,但它们的对齐数据仍然是私有的,这阻碍了人工智能的民主化。高昂的人力成本和有限的预定义提示范围阻碍了现有的开源数据创建方法的有效扩展,可能限制了公共对齐数据集的多样性和质量。从对齐的LLM中直接提取高质量的指导数据来扩展规模是否可能?我们提出了一种名为Magpie的自我合成方法,用于生成大规模的对齐数据。我们的关键观察是,像Llama-3-Instruct这样的对齐LLM可以在我们只输入左侧模板,直到保留给用户消息的位置时生成用户查询,这要归功于它们的自回归特性。我们使用这种方法提示Llama-3-Instruct并生成了400万条指导信息及其相应的响应。我们对提取出的数据进行了全面的分析,并选择了30万条高质量实例。为了将Magpie数据与其他公共指导数据集进行比较,我们使用每个数据集微调Llama-3-8B-Base,并评估微调模型的性能。我们的结果表明,在某些任务中,使用Magpie进行微调的模型表现与官方的Llama-3-8B-Instruct相当,尽管后者通过监督微调(SFT)和随后的反馈学习增强了1000万个数据点。我们还表明,仅使用Magpie进行SFT就可以超过以前用于SFT和偏好优化的公共数据集的性能,例如使用UltraFeedback进行直接偏好优化。这种优势在对齐基准测试中显而易见,例如AlpacaEval、ArenaHard和WildBench。
  • 图表
  • 解决问题
    论文试图通过自我合成法生成大规模的高质量指导数据,以便对齐大型语言模型,从而促进人工智能的民主化。
  • 关键思路
    论文提出了一种名为Magpie的自我合成方法,可以从已对齐的语言模型中提取指导数据。通过仅输入左侧模板,Magpie可以提示Llama-3-Instruct生成用户查询,并生成400万个指导数据及其对应的响应。论文还通过实验证明,使用Magpie进行有监督微调的模型在某些任务上可以与官方的Llama-3-8B-Instruct相媲美。
  • 其它亮点
    论文的亮点包括使用自我合成法生成大规模的高质量指导数据,通过实验证明Magpie可以有效地对齐大型语言模型,以及通过与其他公共指导数据集进行比较,证明Magpie可以用于有监督微调,并在一些任务上表现出色。
  • 相关研究
    最近在这个领域的相关研究包括使用其他方法生成指导数据,如基于规则的方法和基于人类工作者的方法。其中一些研究包括:《Aligning Text and Knowledge Graphs for Question Answering》、《GPT-3 and Beyond: Generative Models of Very Large Corpora》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论