- 简介在使用人类生成的数据对语言模型进行微调的过程中,我们经常受限于高质量人类数据的数量和多样性,因此模型的性能存在局限性。本文探讨了在具有标量反馈的任务上,是否可以超越人类数据的限制,例如在数学问题中可以验证正确性。为此,我们研究了一种简单的自我训练方法,基于期望最大化算法,称为ReST$^{EM}$,其中我们(1)从模型中生成样本并使用二进制反馈进行过滤,(2)对这些样本进行微调,(3)重复这个过程几次。在使用PaLM-2模型在高级MATH推理和APPS编码基准测试上进行测试时,我们发现ReST$^{EM}$可以很好地扩展模型的规模,并且明显优于仅使用人类数据进行微调。总的来说,我们的研究表明,使用反馈进行自我训练可以大大减少对人类生成数据的依赖。
- 图表
- 解决问题论文探讨在具有标量反馈的任务中,是否可以在不依赖于大量高质量人类数据的情况下,通过自我训练来提高语言模型的性能。
- 关键思路论文提出了一种基于期望最大化的简单自我训练方法ReST$^{EM}$,通过从模型中生成样本并使用二进制反馈对其进行筛选,然后在这些样本上进行微调,多次重复该过程,从而实现了自我训练。实验结果表明,ReST$^{EM}$相对于仅使用人类数据进行微调,在数学推理和编码基准测试中都有明显的性能提升。
- 其它亮点论文使用了PaLM-2模型,在数学推理和编码基准测试中进行了实验,实验结果表明ReST$^{EM}$可以大幅减少对人类生成数据的依赖。论文的方法也为自我训练提供了一种新思路。
- 与该论文相关的研究包括使用强化学习进行自我训练的方法,如PPO-SelfTraining和S^4L,在自然语言处理领域中也有类似的自我训练方法,如UDA和BackTranslation。
沙发等你来抢
去评论
评论
沙发等你来抢