DeepMind提出了一种祖安AI，专门输出网络攻击性语言

语言模型 (LM) 常常存在生成攻击性语言的潜在危害，这也影响了模型的部署。一些研究尝试使用人工注释器手写测试用例，以在部署之前识别有害行为。然而，人工注释成本高昂，限制了测试用例的数量和多样性。

基于此，来自 DeepMind 的研究者通过使用另一个 LM 生成测试用例来自动发现目标 LM 未来可能的有害表现。该研究使用检测攻击性内容的分类器，来评估目标 LM 对测试问题的回答质量，实验中在 280B 参数 LM 聊天机器人中发现了数以万计的攻击性回答。

论文地址：https://storage.googleapis.com/deepmind-media/Red%20Teaming/Red%20Teaming.pdf

该研究探索了从零样本生成到强化学习的多种方法，以生成具有多样性和不同难度的测试用例。此外，该研究使用 prompt 工程来控制 LM 生成的测试用例以发现其他危害，自动找出聊天机器人会以攻击性方式与之讨论的人群、找出泄露隐私信息等对话过程存在危害的情况。总体而言，该研究提出的 Red Teaming LM 是一种很有前途的工具，用于在实际用户使用之前发现和修复各种不良的 LM 行为。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

DeepMind提出了一种祖安AI，专门输出网络攻击性语言

评论