Stress-Testing Capability Elicitation With Password-Locked Models

2024年05月29日
  • 简介
    为了确定大型语言模型(LLMs)的安全性,AI开发人员必须能够评估它们的危险能力。但是简单的提示策略经常无法引出LLM的全部能力。更有效引出能力的一种方法是对LLM进行微调以完成任务。在本文中,我们研究了基于微调的引出何时足以引出能力的条件。为此,我们引入了密码锁定模型,即经过微调的LLMs,其某些能力被故意隐藏。具体而言,这些LLMs被训练只有在提示中存在密码时才表现出这些能力,并且在其他情况下模仿一个弱得多的LLM。密码锁定模型提供了一种评估能力引出方法的新方法,通过测试是否可以在不使用密码的情况下引出这些密码锁定的能力。我们发现,很少几个高质量的演示通常足以完全引出密码锁定的能力。更令人惊讶的是,微调可以引出使用相同密码或甚至不同密码锁定的其他能力。此外,当只有评估而没有演示时,诸如强化学习之类的方法仍然能够引出能力。总的来说,我们的研究结果表明,微调是引出当前模型隐藏能力的有效方法,但是当高质量的演示不可用时,可能是不可靠的,例如当模型的(隐藏)能力超过人类演示者时。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在探讨fine-tuning对于激发大型语言模型(LLMs)隐藏能力的有效性,并研究fine-tuning是否可以揭示被密码锁定的模型的隐藏能力。
  • 关键思路
    通过引入密码锁定模型,该论文提出了一种新方法来评估fine-tuning对于揭示隐藏能力的有效性,并发现少量高质量的演示通常足以完全揭示密码锁定的能力。
  • 其它亮点
    实验结果表明,fine-tuning是激发当前模型隐藏能力的有效方法,但在没有高质量演示的情况下可能不可靠。此外,该论文还发现,使用相同密码或不同密码可以fine-tuning揭示其他密码锁定的能力。
  • 相关研究
    最近的相关研究包括《GPT-3: Language Models are Few-Shot Learners》和《Language Models are Unsupervised Multitask Learners》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问