Powering In-Database Dynamic Model Slicing for Structured Data Analytics

2024年05月01日
  • 简介
    关系型数据库管理系统(RDBMS)广泛用于结构化数据的存储和检索。为了从统计聚合之外获取见解,我们通常需要使用传统的数据库操作从数据库中提取特定的子数据集,然后在单独的机器学习系统中对这些相应的子数据集进行深度神经网络(DNN)训练和推断。这个过程可能会非常昂贵,特别是当为不同的分析目的提取组合数量的子数据集时。这需要高效的数据库内支持先进的分析方法。在本文中,我们介绍了LEADS,一种新颖的SQL感知动态模型切片技术,用于定制由SQL查询指定的子数据集的模型。LEADS通过专家混合(MoE)技术改进结构化数据的预测建模,并通过SQL感知门控网络保持推断效率。LEADS的核心是通过MoE在整个数据库上训练多个专家子模型来构建通用模型。这种SQL感知的MoE技术通过在推断期间仅通过门控网络激活必要的专家,扩展了建模能力,提高了效果,并保持了效率。此外,在LEADS的训练过程中,我们引入了两个正则化项,以在效果和效率之间取得平衡。我们还设计和构建了一个名为INDICES的数据库内推断系统,通过非侵入式地将LEADS整合到PostgreSQL中,支持端到端的先进结构化数据分析。我们在实际数据集上进行了广泛的实验,结果表明,LEADS始终优于基线模型,并且INDICES与传统解决方案相比,在推断延迟方面实现了显著的降低,提供了有效的数据库内分析。
  • 图表
  • 解决问题
    LEADS旨在解决在RDBMS中进行深度学习训练和推断的高昂成本问题,通过SQL感知动态模型切片技术定制子数据集的模型,以提高预测建模的效果并保持推断效率。
  • 关键思路
    LEADS通过MoE技术构建多个专家子模型的通用模型,并通过SQL感知门控网络在推断过程中仅激活必要的专家,从而提高建模能力、效果和效率。
  • 其它亮点
    论文介绍了LEADS和INDICES,后者是一个非侵入式的基于PostgreSQL的数据库推断系统,用于支持端到端的高级结构化数据分析。实验结果表明,LEADS在多个真实数据集上均优于基线模型,INDICES相对于传统解决方案具有明显的推断延迟降低。
  • 相关研究
    与LEADS相关的研究包括使用MoE的其他工作,如Mixture Density Networks和Gating Neural Networks。此外,还有一些基于SQL感知的研究,如SQLShare和SQLFlow。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论