- 简介对于大型语言模型的对抗性测试对于它们的安全和负责任的应用至关重要。我们介绍了一种新方法,用于自动生成对抗性评估数据集,以测试LLM在新的下游应用中的安全性。我们称之为AI辅助红队(AART)-一种自动化替代当前手动红队测试的方法。AART提供了一种可重复使用和可定制的数据生成和增强管道,显著减少了人力成本,并使对抗性测试能够更早地集成到新产品开发中。AART生成具有高度内容特征多样性的评估数据集,这对于有效的对抗性测试至关重要(例如,敏感和有害的概念,特定于广泛的文化和地理区域以及应用场景)。数据生成由AI辅助配方引导,以定义,范围和优先考虑应用上下文中的多样性。这反过来又进入了一个结构化的LLM生成过程,从而提高了评估优先级。与一些最先进的工具相比,AART在概念覆盖和数据质量方面显示出有希望的结果。
- 图表
- 解决问题自动化生成对抗性评估数据集以测试大型语言模型的安全性和可靠性
- 关键思路引入AI-assisted Red-Teaming (AART)方法,通过可重用和可定制的配方生成评估数据集,以测试LLM在新下游应用中的安全性
- 其它亮点AART通过AI辅助的配方生成和扩充管道,减少了人力成本,并提供了高度多样化的内容特征,用于有效的对抗性测试。与一些最先进的工具相比,AART在概念覆盖和数据质量方面显示出有希望的结果。
- 最近的相关研究包括:1. Adversarial Testing of AI models with Structural Signatures (ATtACK);2. Generating Adversarial Examples with Adversarial Networks;3. Adversarial Examples Are Not Bugs, They Are Features
沙发等你来抢
去评论
评论
沙发等你来抢