Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs

简介

随着大型语言模型（LLMs）的兴起，确保它们体现“有益、诚实和无害”（3H）原则，即人类对齐（Human Alignment），变得至关重要。虽然现有的对齐方法（如RLHF、DPO等）可以有效地微调LLMs以匹配偏好数据集中的偏好，但它们经常使LLMs对高度接受人类输入和外部证据，即使这些信息是有毒的。这导致LLMs在外部证据与其参数化记忆冲突时成为自适应变色龙。这加剧了LLMs受到外部有毒数据攻击的风险，这对LLM系统应用（如检索增强生成（RAG））构成了重大安全风险。为了解决这一挑战，我们提出了一种新的框架：辩证对齐（DA），该框架（1）利用AI反馈来识别LLMs导航不同外部证据的不同上下文窗口（即有毒事实上下文的不同比例）的最佳策略；（2）根据上述AI反馈和策略构建SFT数据集以及偏好数据集；（3）使用上述数据集对LLM进行对齐，以防止有毒上下文攻击，同时保留上下文知识编辑的有效性。我们的实验表明，辩证对齐模型可以将有毒数据攻击防御提高20％，而不需要任何额外的提示工程或先前声明“您可能会受到攻击”来处理LLMs的上下文窗口。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文解决的问题是如何确保大语言模型（LLMs）符合人类对于有益、诚实和无害（3H）的原则，以避免被外部恶意数据攻击的风险。
关键思路

该论文提出了一种新的框架：辩证对齐（DA），通过利用人工智能反馈来识别LLMs在不同外部证据下如何导航不同的内部冲突，构建SFT数据集和偏好数据集，并将其用于LLM对齐以防御恶意数据攻击。
其它亮点

该论文的亮点包括提出了新的对齐框架DA，可以提高LLMs对抗恶意数据攻击的能力。实验结果表明，该方法比现有方法提高了20%的防御能力，而且不需要额外的提示工程或先前声明。
相关研究

在相关研究方面，最近的研究包括RLHF、DPO等对齐方法，以及Retrieval-augmented generation (RAG)等LLMs应用方向的研究。

Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs

提问交流

提问交流