Extractive text summarisation of Privacy Policy documents using machine learning approaches

2024年04月09日
  • 简介
    这项工作展示了基于两种不同聚类算法的两个隐私政策(PP)摘要模型:K均值聚类和预定义质心(PDC)聚类。在对十种常用聚类算法进行广泛评估后,决定使用K均值聚类作为第一个模型。基于PDC聚类算法的摘要模型通过将每个句子与预定义的聚类中心之间的欧几里得距离分隔来总结PP文档。聚类中心根据《通用数据保护条例》(GDPR)规定的14个必须包含在任何隐私声明中的基本主题进行定义。在两种评估方法(平方距离和ROUGE)中,PDC模型的表现优于K均值模型(分别高出27%和24%)。这个结果与K均值模型在运行任务特定评估之前对句子向量的一般聚类表现更好形成对比。这表明在无监督机器学习模型上操作任务特定的微调措施的有效性。本文实现的摘要机制展示了如何有效地提取应包含在任何PP文档中的基本句子的想法。摘要模型可以进一步开发成一个应用程序,用于测试PP文档的GDPR合规性(或任何数据隐私法规)。
  • 图表
  • 解决问题
    本论文的问题是如何通过聚类算法来提取隐私政策中的关键信息,以及如何评估这些算法的效果。这是一个相对新的问题。
  • 关键思路
    本论文提出了两种基于聚类算法的隐私政策摘要模型,分别是K-means聚类和预定义质心(PDC)聚类。其中,PDC模型根据GDPR的14个关键主题来定义聚类中心,并通过计算每个句子到聚类中心的欧几里得距离来提取关键信息。该模型在Sum of Squared Distance (SSD)和ROUGE两个评估方法中均优于K-means模型。
  • 其它亮点
    本论文的亮点在于提出了一种有效的方法来提取隐私政策中的关键信息,并且进行了详细的实验评估。实验使用了多个数据集,并且开源了代码。此外,本论文还提出了一个将摘要模型应用于测试隐私政策合规性的想法。
  • 相关研究
    最近的相关研究包括基于深度学习的文本摘要和基于规则的文本摘要。其中,一些论文的标题包括“Deep Learning Based Text Summarization: A Survey”和“Rule-Based Text Summarization for Korean News Articles”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论