Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts

2024年02月26日
  • 简介
    随着大型语言模型在许多实际应用中越来越普遍,理解和增强它们对用户输入的鲁棒性至关重要。现有的识别对抗性提示的方法往往关注特定领域,缺乏多样性或需要大量人工注释。为了解决这些限制,我们提出了Rainbow Teaming,一种产生多样化对抗提示的新方法。Rainbow Teaming将对抗性提示生成视为质量-多样性问题,并使用开放式搜索生成既有效又多样的提示。它可以揭示模型在广泛领域内的漏洞,包括本文中的安全、问答和网络安全。我们还证明,对Rainbow Teaming生成的合成数据进行微调可以提高最先进的LLM的安全性,而不会损害它们的一般能力和有用性,为开放式自我改进铺平了道路。
  • 图表
  • 解决问题
    本文旨在提高大型语言模型(LLMs)对用户输入的鲁棒性,通过生成多样化的对抗提示来揭示模型的漏洞,并探索使用Rainbow Teaming生成的合成数据来提高LLMs的安全性。
  • 关键思路
    Rainbow Teaming将对抗提示生成视为一个质量多样性问题,并使用开放式搜索生成既有效又多样的提示,从而揭示模型在广泛领域中的漏洞,并证明在Rainbow Teaming生成的合成数据上进行微调可以提高LLMs的安全性而不会损害其一般能力和帮助性。
  • 其它亮点
    本文提出了Rainbow Teaming方法,用于生成多样化的对抗提示,以揭示LLMs的漏洞。实验涵盖了安全性、问答和网络安全等多个领域,并展示了在Rainbow Teaming生成的合成数据上微调可以提高LLMs的安全性。本文的方法不需要人工注释,具有广泛的适用性和可扩展性。
  • 相关研究
    最近的相关研究包括使用对抗样本来评估LLMs的鲁棒性,以及使用生成对抗示例来提高模型的鲁棒性。例如,文章“Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency”和“TextFooler: Generating Adversarial Text Against Real-world Applications”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论