Facilitating Pornographic Text Detection for Open-Domain Dialogue Systems via Knowledge Distillation of Large Language Models

2024年03月20日
  • 简介
    在人机交互对话中出现色情内容可能会对开放域对话系统的用户产生严重的副作用。然而,检测人机交互对话中的色情语言的研究是一个重要的课题,但很少有人研究。为了推进这个方向,我们介绍了CensorChat,这是一个对话监控数据集,旨在检测对话会话是否包含色情内容。为此,我们收集了野外的真实人机交互对话,并将其分解为单个话语和单个对话,最后一个话语由聊天机器人说出。我们建议利用大型语言模型的知识蒸馏来注释数据集。具体来说,首先,原始数据集由四个开源大型语言模型进行注释,多数票决定标签。其次,我们使用ChatGPT来更新第一步的空标签。第三,为确保验证和测试集的质量,我们使用GPT-4进行标签校准。如果当前标签与GPT-4生成的标签不匹配,我们采用自我批评策略来验证其正确性。最后,为了便于检测色情文本,我们使用伪标记数据集开发了一系列文本分类器。详细的数据分析表明,利用大型语言模型的知识蒸馏技术提供了一种实用且成本效益高的方法来开发色情文本检测器。
  • 图表
  • 解决问题
    论文旨在解决检测人机交互对话中的色情内容的问题。这是一个新问题,因为很少有研究关注此类问题。
  • 关键思路
    论文提出了一种使用大型语言模型进行知识蒸馏的方法来注释数据集,并使用伪标签数据集开发文本分类器,从而识别色情文本。这种方法是一种实用且成本效益高的方法。
  • 其它亮点
    论文开发了一个名为CensorChat的对话监测数据集,用于检测对话会话是否包含色情内容。作者使用了四个开源大型语言模型进行注释,并使用ChatGPT和GPT-4进行标签校准。实验结果表明,使用大型语言模型进行知识蒸馏提供了一种实用且成本效益高的方法来开发色情文本检测器。
  • 相关研究
    最近在该领域的相关研究包括:1.《基于深度学习的色情图片识别研究》2.《基于深度学习的色情文本识别研究》3.《基于深度学习的色情视频识别研究》
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论