ALMA: Alignment with Minimal Annotation

2024年12月05日
  • 简介
    近期针对大型语言模型(LLM)对齐的方法通常需要数百万个人工标注,或者依赖外部已对齐的模型生成合成数据。本文介绍了ALMA:最小标注对齐方法,证明了仅使用9,000个标注示例——不到传统方法的1%——就能实现有效的对齐。ALMA通过新的技术生成大量高质量的合成对齐数据:通过少量学习生成多样化的提示、通过多个模型检查点生成多样化的响应,以及通过分数聚合和自蒸馏增强评估模型(奖励模型)。仅使用预训练的Llama3基础模型、5,000个SFT示例和4,000个评估标注,ALMA在多种对齐基准测试中实现了接近Llama3-Instruct的性能(例如,在AlpacaEval 2.0评分上的差异仅为0.1%)。这些结果是通过一个多轮次、自引导的数据合成和训练方法实现的,该方法持续改进达10轮次,超过了以往方法通常的3轮次上限。这些结果表明,基础模型已经具备了有效对齐所需的充分知识,而合成数据生成方法可以揭示这一点。
  • 图表
  • 解决问题
    该论文试图解决大型语言模型(LLM)对齐过程中所需大量人工标注的问题。传统方法通常需要数百万个人工标注或依赖外部对齐模型生成合成数据,这在成本和效率上都存在挑战。
  • 关键思路
    ALMA(Alignment with Minimal Annotation)提出了一种新的对齐方法,仅需9,000个标注样本即可实现有效对齐,远低于传统方法所需的数量。通过多样化的提示合成、响应生成和评分模型增强等技术,ALMA能够生成高质量的合成对齐数据,从而显著减少对人工标注的依赖。
  • 其它亮点
    1. 使用仅5,000个SFT(监督微调)示例和4,000个评分模型注释,ALMA在多个对齐基准测试中表现接近Llama3-Instruct。 2. 提出了一种多轮自引导的数据合成和训练方法,性能持续提升至10轮,超越了以往方法通常的3轮上限。 3. 实验设计严谨,使用了AlpacaEval 2.0等数据集进行评估,并且代码已开源,方便后续研究者复现和改进。 4. 研究表明,基础模型已经具备足够的知识进行有效对齐,合成数据生成方法可以更好地挖掘这些知识。
  • 相关研究
    1. "Fine-Tuning Language Models from Human Preferences" - 这篇论文探讨了通过人类偏好对语言模型进行微调的方法。 2. "Training Verifiers to Solve Math Word Problems" - 介绍了如何训练验证器来解决数学应用题,强调了合成数据的重要性。 3. "Self-Consistency Improves Chain of Thought Reasoning in Language Models" - 探讨了自一致性在语言模型推理中的作用,与ALMA的自我蒸馏技术有相似之处。 4. "Human Feedback is a Strong Regularizer for Language Models" - 讨论了人类反馈作为语言模型正则化手段的有效性。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论