- 简介本文提出了一种提高大型语言模型(LLMs)输出置信度的方法,即支持它们以清晰易懂、易于检查的推理方式,我们称之为可读性。我们研究了在解决小学数学问题的情境下的可读性,并表明仅为了正确性而优化思路链的解决方案可能会降低其可读性。为了减少可读性的损失,我们提出了一种训练算法,灵感来自于Anil等人(2021)的Prover-Verifier Game。我们的算法迭代地训练小的验证器来预测解决方案的正确性,训练“有用”的证明者来产生验证器接受的正确解决方案,以及训练“狡猾”的证明者来产生欺骗验证器的错误解决方案。我们发现,有用证明者的准确性和验证器对对抗攻击的鲁棒性随着训练的进行而增加。此外,我们还展示了可读性训练对于时间受限的人类验证解决方案的准确性的转移。在LLM训练的过程中,当检查有用证明者的解决方案时,人类的准确性会增加,而当检查狡猾证明者的解决方案时,人类的准确性会降低。因此,通过小的验证器进行可检查性训练是一种增加输出可读性的可行技术。我们的结果表明,针对小的验证器进行可读性训练是提高大型LLMs对人类可读性的实用途径,因此可以有助于超级模型的对齐。
- 图表
- 解决问题论文旨在解决如何提高大型语言模型的可读性和可检查性的问题,特别是在解决小学数学问题时。
- 关键思路通过训练小型验证器来检查解决方案的正确性,同时训练有益的证明者和狡猾的证明者,以提高大型语言模型的可读性和可检查性。
- 其它亮点论文提出了一个基于Prover-Verifier Game的训练算法,通过训练小型验证器来提高大型语言模型的可读性和可检查性。实验结果表明,这种训练方法可以提高验证器的鲁棒性和有益证明者的准确性,并且可以将可读性训练转移到人类验证者身上。
- 与此相关的研究包括Anil等人在2021年提出的Prover-Verifier Game,以及其他关于提高大型语言模型可读性和可检查性的研究,如《Making Neural Mathematics Solvers Checkable》和《Making Sense of Transformers》。
沙发等你来抢
去评论
评论
沙发等你来抢