Debating with More Persuasive LLMs Leads to More Truthful Answers

2024年02月09日
  • 简介
    常见的用于使大型语言模型(LLMs)与所需行为对齐的方法严重依赖于人工标注数据。然而,随着模型变得越来越复杂,它们将超越人类专业知识,人类评估的作用将演变为非专家监督专家。为了预见这一点,我们提出了一个问题:较弱的模型能否评估更强的模型的正确性?我们在一个类似的环境中研究了这个问题,其中更强的模型(专家)具有回答问题所需的必要信息,而较弱的模型(非专家)缺乏这种信息。我们评估的方法是\textit{辩论},其中两个LLM专家各自辩论不同的答案,而非专家选择答案。我们发现,辩论始终有助于非专家模型和人类回答问题,分别实现了76\%和88\%的准确率(朴素基线分别为48\%和60\%)。此外,以无监督的方式优化专家辩手的说服力可以提高非专家在辩论中识别真相的能力。我们的结果为在没有基础真相的情况下通过辩论使模型对齐提供了令人鼓舞的实证证据。
  • 图表
  • 解决问题
    论文试图探讨在大型语言模型中,是否可以通过较弱的模型来评估较强的模型的正确性,以及通过怎样的方法来实现这一点?
  • 关键思路
    论文提出了一种名为“辩论”的方法,通过让两个强模型就某个问题进行辩论,然后让一个弱模型来选择正确答案,来评估强模型的正确性。研究结果表明,这种方法对于提高弱模型和人类的问题回答准确率都有帮助。
  • 其它亮点
    论文使用了辩论方法来评估大型语言模型的正确性,实验结果表明该方法对于提高弱模型和人类的问题回答准确率都有帮助。此外,通过优化辩论者的说服力可以进一步提高该方法的效果。论文还提出了一些值得深入研究的问题,例如如何解决模型之间存在的偏差问题。
  • 相关研究
    最近的相关研究包括通过人类标注数据来对大型语言模型进行评估的方法,以及通过对抗样本来评估模型的鲁棒性的方法。相关论文包括《BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model》和《Adversarial Examples Are Not Bugs, They Are Features》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论