【标题】A Reinforcement Learning-based Offensive semantics Censorship System for Chatbots

【作者团队】Shaokang Cai, Dezhi Han, Zibin Zheng, Dun Li, NoelCrespi

【发表日期】2022.7.13

【论文链接】https://arxiv.org/pdf/2207.10569.pdf

【推荐理由】人工智能(AI)技术的快速发展,使得大规模的人工智能应用落地市场和实践。然而,人工智能技术在产品化过程中给人们带来了很多便利的同时,也暴露了很多安全问题。特别是针对聊天机器人在线学习漏洞的攻击频发。因此,本文提出了一种基于强化学习的语义审查聊天机器人系统,主要由攻击性语义审查模型和语义净化模型两部分组成。攻击性语义审查可以结合用户输入句子的上下文来检测攻击性语义的快速演变并响应攻击性语义响应。语义净化模型对于聊天机器人模型的情况,它被大量的攻击性语义所污染,通过加强学习算法学习到的攻击性回复,而不是回滚到早期版本。此外,通过集成一次性学习方法,加快了语义提纯的速度,同时减少了对回复质量的影响。实验结果表明,该方法降低了聊天模型产生攻击性回复的概率,并且融合了few-shot学习算法迅速提高了训练速度,同时有效减缓​​了BLEU值的下降。