Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs

2024年03月30日
  • 简介
    随着大型语言模型(LLMs)的兴起,确保它们体现“有益、诚实和无害”(3H)原则,即人类对齐(Human Alignment),变得至关重要。虽然现有的对齐方法(如RLHF、DPO等)可以有效地微调LLMs以匹配偏好数据集中的偏好,但它们经常使LLMs对高度接受人类输入和外部证据,即使这些信息是有毒的。这导致LLMs在外部证据与其参数化记忆冲突时成为自适应变色龙。这加剧了LLMs受到外部有毒数据攻击的风险,这对LLM系统应用(如检索增强生成(RAG))构成了重大安全风险。为了解决这一挑战,我们提出了一种新的框架:辩证对齐(DA),该框架(1)利用AI反馈来识别LLMs导航不同外部证据的不同上下文窗口(即有毒事实上下文的不同比例)的最佳策略;(2)根据上述AI反馈和策略构建SFT数据集以及偏好数据集;(3)使用上述数据集对LLM进行对齐,以防止有毒上下文攻击,同时保留上下文知识编辑的有效性。我们的实验表明,辩证对齐模型可以将有毒数据攻击防御提高20%,而不需要任何额外的提示工程或先前声明“您可能会受到攻击”来处理LLMs的上下文窗口。
  • 作者讲解
  • 图表
  • 解决问题
    本论文解决的问题是如何确保大语言模型(LLMs)符合人类对于有益、诚实和无害(3H)的原则,以避免被外部恶意数据攻击的风险。
  • 关键思路
    该论文提出了一种新的框架:辩证对齐(DA),通过利用人工智能反馈来识别LLMs在不同外部证据下如何导航不同的内部冲突,构建SFT数据集和偏好数据集,并将其用于LLM对齐以防御恶意数据攻击。
  • 其它亮点
    该论文的亮点包括提出了新的对齐框架DA,可以提高LLMs对抗恶意数据攻击的能力。实验结果表明,该方法比现有方法提高了20%的防御能力,而且不需要额外的提示工程或先前声明。
  • 相关研究
    在相关研究方面,最近的研究包括RLHF、DPO等对齐方法,以及Retrieval-augmented generation (RAG)等LLMs应用方向的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问