MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability

简介

随着大型语言模型（LLMs）在各种应用中的使用不断增加，人们对它们的安全性的担忧也在上升，特别是在面对恶意指令时保持无害回应方面。许多防御策略已经被开发出来以增强LLMs的安全性。然而，我们的研究发现，现有的防御策略导致LLMs主要采用拒绝为导向的立场，从而降低了它们对良性指令的响应的可用性。为了解决这个问题，我们引入了MoGU框架，旨在增强LLMs的安全性同时保持它们的可用性。我们的MoGU框架将基础LLM转化为两个变体：可用LLM和安全LLM，并进一步采用动态路由来平衡它们的贡献。当遇到恶意指令时，路由器将分配更高的权重给安全LLM，以确保回应是无害的。相反，对于良性指令，路由器优先考虑可用LLM，促进可用和有用的回应。在多个开源LLMs上，我们比较了多种防御策略，以验证我们的MoGU框架的优越性。此外，我们的分析提供了关于MoGU有效性的关键见解，并验证了我们设计的路由机制可以通过分配权重有效地平衡每个变体的贡献。我们的工作发布了更安全的Llama2、Vicuna、Falcon、Dolphin和Baichuan2。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在保证语言模型应对恶意指令时的安全性的同时，保持其对良性指令的可用性？
关键思路

提出MoGU框架，将语言模型分为可用LLM和安全LLM两个变体，并采用动态路由来平衡它们的贡献，以便在遇到恶意指令时分配更高的权重给安全LLM，而在良性指令时优先考虑可用LLM。
其它亮点

实验表明MoGU框架比其他防御策略更有效，并提供了有关平衡贡献的动态路由机制的关键见解。此外，研究人员还开发了更安全的Llama2、Vicuna、Falcon、Dolphin和Baichuan2。
相关研究

最近的相关研究包括使用不同的防御策略来提高语言模型的安全性，如Adversarial Training、Distillation和Pruning等。

MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability

提问交流

提问交流