The Art of Saying No: Contextual Noncompliance in Language Models

简介

聊天式语言模型的设计初衷是为了提供帮助，但它们不应该满足每一个用户的请求。虽然现有的大部分工作主要关注拒绝“不安全”的查询，但我们认为不满足用户请求的范围应该扩大。我们提出了一个包括不完整、不支持、不确定和人性化请求（除了不安全请求）在内的全面的上下文不满足分类法。为了测试语言模型的不满足能力，我们使用这个分类法开发了一个新的评估套件，包括1000个不满足提示。我们发现，大多数现有模型在某些以前未研究的类别中显示出显著高的满足率，像GPT-4这样的模型错误地满足了高达30%的请求。为了解决这些差距，我们探讨了使用合成生成的请求和预期的不满足响应的不同训练策略。我们的实验表明，虽然直接微调指令调整模型可能会导致过度拒绝和一般能力下降，但使用参数高效的方法如低秩适配器有助于在适当的不满足和其他能力之间取得良好的平衡。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

语言模型应该在何种情况下不遵循用户请求？这是一个新问题吗？
关键思路

提出了一种分类系统，描述了语言模型不遵循用户请求的情况，并探讨了使用合适的方法来平衡适当的不遵循和其他能力之间的关系。
其它亮点

使用了一个包含1000个不遵循提示的评估套件来测试语言模型的不遵循能力，发现现有模型在某些以前未研究的类别中表现出高度的遵从率，但是使用低秩适配器等不同的训练策略可以帮助平衡适当的不遵循和其他能力。
相关研究

最近的相关研究包括针对语言模型的安全性和隐私性的研究，以及使用不同的训练方法来提高语言模型的性能的研究。

The Art of Saying No: Contextual Noncompliance in Language Models

提问交流

提问交流