How Good Are Multi-dimensional Learned Indices? An Experimental Survey

2024年05月09日
  • 简介
    高效的索引对于多维数据管理和分析至关重要。一种新兴的趋势是通过简单的机器学习模型直接学习多维数据的存储布局,从而产生了“学习索引”的概念。与几十年来使用的传统索引(例如kd-tree和R-tree变体)相比,实证结果表明,学习索引在现代架构上在空间和时间效率上都具有优势。然而,目前缺乏对现有多维学习索引进行全面评估的统一基准,这使得很难决定适合特定数据和查询的索引,并进一步阻碍了学习索引在实际应用场景中的部署。本文提出了第一个深入的实证研究,以回答多维学习索引的表现如何的问题。我们在统一的实验配置下评估了六种最近发表的索引,包括索引实现、数据集、查询工作负载和评估指标。我们彻底调查了评估结果,并讨论了这些发现可能为未来的学习索引设计提供的见解。
  • 图表
  • 解决问题
    综合评估现有多维学习索引的性能表现,以便在实际应用场景中选择合适的索引
  • 关键思路
    使用统一的实验配置,评估了6种最近发布的多维学习索引的性能表现,并讨论了评估结果和发现,为未来的学习索引设计提供了启示
  • 其它亮点
    实验使用了多个数据集和查询工作负载,探究了不同索引的性能表现,发现学习索引在现代架构下具有空间和时间效率优势,但在高维数据上性能下降明显。此外,论文还开源了实验代码,为后续研究提供了便利
  • 相关研究
    近期的相关研究包括《DeepAM: Merging Multiple Representation Learning Paths for Automatic Music Audio Tagging》、《Learning to Index for Deep Image Retrieval》等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论