近日,数据管理顶会 VLDB 公布了今年的 EA&B 最佳论文奖项,本次的获奖论文为西蒙弗雷泽大学和腾讯合作的《Are We Ready for Learned Cardinality Estimation(通过机器学习的基数估计技术成熟了吗?)》。
VLDB 是数据管理领域两大顶会之一,面向数据管理和数据库研究人员、供应商、从业人员、应用程序开发人员等群体。VLDB 2021 大会以线上、线下两种方式举行,于当地时间 8 月 16 日在丹麦哥本哈根开幕。EA&B(Experiment, Analysis and Benchmark,实验、分析与基准)最佳论文奖每年颁发一次。

论文地址:https://arxiv.org/pdf/2012.06743.pdf
项目地址:https://github.com/sfu-db/AreCELearnedYet
基数估计是查询优化中一个基本但长期未解决的问题。在获奖的这篇论文中,研究者提出了一个前瞻性的问题:「我们是否准备好在生产中部署这些 learned 的基数模型?」研究包括三个主要部分:
首先,关注静态环境 (即没有数据更新) 并在统一的工作负载设置下,对四个真实世界的数据集比较了五种新的 learned methods 和九种传统方法。结果表明,learned models 确实比传统方法更准确,但是它们往往需要较高的训练和推理成本;
其次,探索这些 learned models 是否适用于动态环境 (例如频繁的数据更新)。研究发现,它们无法跟上快速数据更新并返回由于不同原因造成的重要错误。对于不太频繁的更新,它们可以表现得更好,但它们之间没有明确的赢家;
第三,更深入地研究了 learned models,并探索它们何时可能出错。结果表明,learned methods 的性能可以很大程度上受到变化的影响,比如偏斜或领域大小。更重要的是,其行为很难解释,而且常常难以预测。

这篇论文的合著者主要来自西蒙弗雷泽大学王健楠团队。王健楠是SFU计算机系的副教授,2013 年在清华大学获得博士学位,2013 年 - 2015 年间在加州大学伯克利分校AMPLab进行博士后阶段的研究工作。所领导开发的数据准备工具dataprep.ai 目前已经有近 20 万的下载量。他所获奖励包括:加拿大计算机协会授予的杰出青年奖 (2020),IEEE授予的数据工程新星奖(2018),ACM SIGMOD 最佳演示奖(2016),CCF最佳博士论文奖(2013),Google PhD Fellowship (2011)。他是VLDB 2023大会共同主席,VLDB 2021副主编。
王健楠表示:「learned methods 是目前数据库很火的领域,但是目前的研究工作太关心模型的准确度了,而没有考虑其它把他部署到实际系统会遇到的挑战。我们这篇论文其实想给这个领域的研究中心扭转过来,让大家更多的关心如何降低模型的 cost,以及让模型更可信。」
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢