- 简介一种增加大型语言模型(LLMs)输出置信度的方法是为它们提供清晰易懂、易于核查的推理方式,这种属性我们称之为可读性。我们研究了在解决小学数学问题时的可读性,并表明仅针对答案正确性优化思路链解决方案可能会降低可读性。为了减轻可读性的损失,我们提出了一种受Anil等人(2021年)的Prover-Verifier Game启发的训练算法。我们的算法迭代地训练小的验证器来预测解决方案的正确性,"有用的"证明者产生被验证者接受的正确解决方案,"狡猾的"证明者产生欺骗验证者的错误解决方案。我们发现,在训练过程中,有用的证明者的准确性和验证者对对抗性攻击的鲁棒性都有所提高。此外,我们表明,可读性训练可以转移到任务是验证解决方案的时间受限的人类身上。在LLM训练过程中,当检查有用的证明者的解决方案时,人类的准确性会提高,而检查狡猾的证明者的解决方案时,则会降低。因此,通过小的验证器进行可检查性训练是增加输出可读性的一种可行技术。我们的结果表明,针对小的验证器进行可读性训练是增加大型LLMs对人类可读性的实用方法,因此可以帮助实现超级模型的对齐。
- 图表
- 解决问题论文旨在解决如何提高大型语言模型的输出易读性,以便更好地与人类对齐的问题。
- 关键思路通过训练小型验证器来检查解决方案的正确性,从而提高大型语言模型输出的易读性。
- 其它亮点论文提出了一种基于Prover-Verifier Game的训练算法,通过训练小型验证器来提高大型语言模型输出的易读性,并表明这种训练方法可以转化为人类的验证任务。实验结果表明,训练有用的Prover和鲁棒的Verifier可以提高人类的准确性。
- 最近的相关研究包括Anil等人的Prover-Verifier Game和其他一些关于大型语言模型输出易读性的研究,如Liu等人的Legible Task-oriented Dialogue Systems和Huang等人的Improving the Readability of Open-domain Generated Texts。
沙发等你来抢
去评论
评论
沙发等你来抢