LLM Critics Help Catch LLM Bugs

2024年06月28日
  • 简介
    本文提出了一种叫做“基于人类反馈的强化学习”(RLHF)的方法,该方法的局限性在于人类评估模型输出的能力有限。为了提高人类评估能力并克服这一局限性,本文训练了“评论家”模型,帮助人们更准确地评估模型生成的代码。这些评论家本身是使用RLHF训练的LLM(语言模型),用于编写自然语言反馈,突出实际助手任务中代码中的问题。在包含自然出现的LLM错误的代码中,63%的情况下,模型编写的评论优于人类评论,并且人类评估发现模型比付费代码审核的人类承包商发现更多错误。我们进一步证实,我们经过微调的LLM评论家可以成功地识别ChatGPT训练数据中被评为“完美”的数百个错误,尽管其中大部分任务都是非代码任务,因此对于评论家模型来说是超出分布范围的。评论家也可能有其自身的局限性,包括可能导致人类犯错的虚假错误,但评论家和承包商的人机团队在捕获错误数量方面与LLM评论家相似,同时幻觉比LLM单独少。
  • 图表
  • 解决问题
    论文旨在通过训练“评论家”模型来提高人类对模型输出的正确评估能力,从而克服人类评估能力的局限性。
  • 关键思路
    论文通过使用强化学习从人类反馈中训练LLMs作为“评论家”,帮助人类更准确地评估模型编写的代码,并证明这种方法比人类评估更有效。此外,LLM评论家可以成功地识别ChatGPT的许多错误,即使大多数任务都是非代码任务。
  • 其它亮点
    论文的实验表明,使用模型编写的评论在63%的情况下优于人类编写的评论。此外,模型比人类承包商支付的代码审查更能发现错误。虽然评论家也有其局限性,但是人-机评论家和承包商可以捕捉到与LLM评论家类似数量的错误,同时比LLMs更少地产生虚假错误。
  • 相关研究
    近期的相关研究包括使用人类评估,而不是自动评估来评估自然语言生成模型的质量(《The Efficacy of Human Evaluation of Machine-Generated Text》),以及使用人类反馈来改进自然语言生成模型的质量(《Learning to Learn from Human Preferences》)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论