- 简介大多数之前关于大型语言模型(LLMs)的安全性研究都集中在增强LLMs与人类的安全需求更好地对齐上。然而,将这些安全特性内部化到更大的模型中带来了更高的训练成本和意外的有害性能下降的挑战。为了克服这些挑战,在设计具有安全性要求的LLM系统时,采用一个较小的LLM来检测有害用户查询被认为是一种方便的解决方案。本文利用一个较小的LLM来进行有害查询检测和安全响应生成。我们介绍了我们的安全要求和有害性类别的分类法,然后提出了一个多任务学习机制,将这两个任务融合成一个单一的模型。我们证明了我们的方法的有效性,与公开可用的LLMs相比,我们提供了与有害查询检测和安全响应性能相当或更好的表现。
- 图表
- 解决问题论文旨在设计一种基于较小的语言模型的多任务学习机制,用于检测有害查询和生成安全响应,以提高大型语言模型的安全性能。
- 关键思路通过使用较小的语言模型来检测有害查询并生成安全响应,将两个任务融合到一个模型中,提高大型语言模型的安全性能。
- 其它亮点论文介绍了安全要求和有害性分类的分类法,提出了一种多任务学习机制,将有害查询检测和安全响应生成融合到一个模型中,并展示了该方法的有效性。
- 在相关研究方面,先前的研究主要集中在增强大型语言模型与人类安全要求之间的对齐性上。而本文提出的基于较小语言模型的多任务学习机制为大型语言模型的安全性能提供了一种便捷的解决方案。
沙发等你来抢
去评论
评论
沙发等你来抢