DeTox: Toxic Subspace Projection for Model Editing

简介

最近出现了一些对齐算法，如直接偏好优化（DPO），通过训练这些模型以匹配由偏好数据所体现的人类行为来提高大型语言模型（LLM）的安全性。然而，这些方法既计算密集又缺乏可控性和透明度，容易被越狱，从而限制了它们的广泛使用。此外，这些基于调整的方法需要大规模的偏好数据进行训练，并且容易受到嘈杂的偏好数据的影响。在本文中，我们介绍了一种无需调整的对齐替代方案（DeTox），并在减少有毒性的情况下展示了其有效性。DeTox基于因子分析理论，是一种样本高效的模型编辑方法，它在模型参数空间中识别出有毒子空间，并通过投影来减少模型的有毒性。有毒的子空间是通过从语言模型中提取偏好数据嵌入并从这些嵌入中删除非有毒信息来识别的。我们展示了DeTox比DPO更加样本高效，进一步展示了对嘈杂数据更强的鲁棒性。最后，我们建立了DeTox和DPO之间的理论和实证联系，表明DeTox可以被解释为单个DPO步骤的去噪版本。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决大型语言模型（LLMs）的安全问题，提出了一种名为DeTox的无调整对齐方案，以降低模型的有害性。
关键思路

DeTox是一种基于因子分析理论的模型编辑方法，通过从语言模型中提取偏好数据嵌入，并从这些嵌入中去除非有害信息，识别模型参数空间中的有害子空间，并通过对检测到的子空间进行投影来降低模型的有害性。
其它亮点

DeTox比DPO更具样本效率，更具鲁棒性，能够更好地处理嘈杂的数据。实验结果表明，DeTox在减少模型有害性方面是有效的。此外，DeTox还可以解释为单个DPO步骤的去噪版本。
相关研究

与此相关的研究包括直接偏好优化（DPO）等对齐算法，以及其他一些用于提高模型安全性的方法。

DeTox: Toxic Subspace Projection for Model Editing

提问交流

提问交流