Contextual Chart Generation for Cyber Deception

2024年04月07日
  • 简介
    本文介绍了一种安全资产——Honeyfiles,旨在吸引和检测入侵者。Honeyfiles是一种蜜罐,模仿真实的敏感文档,制造有价值数据存在的假象。与Honeyfiles交互可以揭示入侵者的存在,并提供关于其目标和意图的见解。然而,它们的实际应用受到手动创建逼真内容所需的时间、成本和努力的限制。大型语言模型的引入使高质量文本生成成为可能,但Honeyfiles包含各种内容,包括图表、表格和图像。这些内容需要是可信和逼真的,同时在Honeyfiles内部和与其模仿的真实文档中语义上一致,才能成功欺骗入侵者。 本文重点研究Honeyfiles内容生成问题的一个重要组成部分:文档图表。图表在企业文档中无处不在,通常用于传达数量和科学数据。现有的图像生成模型,如DALL-E,往往会生成具有难以理解的文本和不可信数据的图表。我们采用多模态方法解决这个问题,结合两个专门构建的生成模型:多任务Transformer和专门的多头自编码器。Transformer生成逼真的标题和绘图文本,而自编码器生成绘图的基础表格数据。 为了推进自动化Honeyplot生成领域,我们还发布了一个新的文档-图表数据集,并提出了一种新的度量标准——关键词语义匹配(KSM)。该度量标准衡量语料库和较小的词袋之间的语义一致性。广泛的实验表明,在多个大型语言模型(包括ChatGPT和GPT4)中,该度量标准表现出优异的性能。
  • 图表
  • 解决问题
    本论文旨在解决Honeyfiles生成中的一个重要组成部分:文档图表的生成问题。如何生成逼真的图表是一个新问题,现有的图像生成模型往往无法生成具有可理解文本和令人信服数据的图表。
  • 关键思路
    本论文采用多模态方法,结合多任务Transformer和专门的多头自编码器,解决文档图表生成问题。Transformer生成逼真的标题和绘图文本,而自编码器则生成绘图的基础表格数据。
  • 其它亮点
    论文提出了一个新的文档图表数据集,并提出了一种新的指标Keyword Semantic Matching(KSM)。实验结果表明,与ChatGPT和GPT4等多个大型语言模型相比,该方法表现出优异的性能。
  • 相关研究
    最近的相关研究主要集中在多模态生成领域。例如,一些研究使用变分自编码器和生成对抗网络来生成图像和文本的组合。相关论文包括:“Learning to Generate Images and Textures Jointly using Conditional GANs”和“Adversarial Generation of Natural Language Explanations for Visual Content”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论