Certifiably Robust RAG against Retrieval Corruption

2024年05月24日
  • 简介
    本文研究了检索增强生成(RAG)在受到检索结果篡改攻击时的脆弱性:攻击者可以向检索结果中注入恶意段落以诱导不准确的回答。为此,我们提出了RobustRAG作为第一个针对检索结果篡改攻击的防御框架。RobustRAG的关键见解是一种隔离-聚合策略:我们从每个段落中单独获取LLM响应,然后安全地聚合这些隔离的响应。为了实现RobustRAG,我们设计了基于关键词和解码的算法,用于安全地聚合非结构化文本响应。值得注意的是,RobustRAG可以实现可证明的鲁棒性:我们可以正式证明和认证,在某些查询中,即使攻击者完全了解我们的防御并可以任意注入少量恶意段落,RobustRAG仍然可以始终返回准确的响应。我们在开放领域问答和长篇文本生成数据集上评估了RobustRAG,并展示了其在各种任务和数据集上的有效性和通用性。
  • 图表
  • 解决问题
    本论文旨在提出一种防御检索损坏攻击的框架,即RobustRAG,以解决Retrieval-augmented generation (RAG)模型存在的漏洞问题。
  • 关键思路
    RobustRAG采用隔离-聚合策略,即在隔离的情况下获取每个段落的LLM响应,然后安全地聚合这些隔离的响应。同时设计了基于关键词和基于解码的算法,以安全地聚合非结构化文本响应。
  • 其它亮点
    RobustRAG可以实现可证明的鲁棒性:我们可以正式证明并认证,在某些查询中,即使攻击者完全了解我们的防御,并可以任意注入少量恶意段落,RobustRAG也可以始终返回准确的响应。通过在开放领域QA和长文本生成数据集上进行评估,证明了RobustRAG的有效性和通用性。
  • 相关研究
    最近的相关研究包括:1.《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》;2.《Improving Robustness of Retrieval-Augmented Generation via Latent Variable Disentanglement》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论