Beyond Text-to-SQL for IoT Defense: A Comprehensive Framework for Querying and Classifying IoT Threats

2024年06月25日
  • 简介
    之前的研究强调了文本到SQL系统的开发,认识到自然语言接口对数据库的潜在价值。虽然在这个领域已经取得了实质性进展,但现有研究集中于从文本查询生成SQL语句。然而,更广泛的挑战在于推断返回数据的新信息。我们的研究在解决这一差距方面做出了两个重要贡献。首先,我们引入了一个新颖的物联网(IoT)文本到SQL数据集,包括10,985个文本-SQL对和239,398行网络流量活动数据。该数据集包含先前文本到SQL数据集中限制的其他查询类型,特别是与时间相关的查询。我们的数据集来自智能建筑的IoT生态系统,探索传感器读数和网络流量数据。其次,我们的数据集允许两阶段处理,即可以将生成的SQL返回的数据(网络流量)分类为恶意或不恶意。我们的结果表明,联合训练查询和推断有关数据的信息可以提高整体文本到SQL性能,几乎可以匹配更大的模型。我们还表明,当前的大型语言模型(例如GPT3.5)难以推断有关返回数据的新信息,因此我们的数据集为将复杂的领域特定推理集成到LLM中提供了新的测试平台。
  • 图表
  • 解决问题
    本论文旨在解决文本到SQL系统中的新信息推断问题,并提出了一个新的物联网文本到SQL数据集,包含更多类型的查询和返回数据的分类信息。
  • 关键思路
    通过两阶段处理,将生成的SQL返回的数据分类为恶意或非恶意,并联合训练查询和推断数据信息,从而提高文本到SQL的性能。
  • 其它亮点
    该论文提出了一个新的物联网文本到SQL数据集,包含更多类型的查询和返回数据的分类信息,并且使用了两阶段处理来提高性能。此外,论文还发现当前大型语言模型难以推断返回数据的新信息,因此提供了一个新的测试平台来集成复杂的领域特定推理。
  • 相关研究
    该领域最近的相关研究包括《Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task》和《Editing-Based SQL Query Generation for Cross-Domain Context-Dependent Questions》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论