Blueprinting the Cloud: Unifying and Automatically Optimizing Cloud Data Infrastructures with BRAD -- Extended Version

2024年07月22日
  • 简介
    现代组织使用各种专用云数据库引擎(例如Aurora、BigQuery等)来管理其数据。然而,设计和管理这样的基础设施很困难。开发人员必须考虑许多可能的设计,这些设计具有非明显的性能后果;此外,当前的软件抽象将应用程序紧密耦合到特定系统(例如,使用特定引擎的客户端),使得在初始部署后更改变得困难。更好的解决方案是虚拟化云数据管理,允许开发人员声明性地指定其工作负载要求,并依赖于自动化解决方案来设计和管理物理实现。在本文中,我们介绍了一种称为蓝图规划的技术来实现这一愿景。关键思想是将数据基础设施设计决策投影到统一的设计空间(蓝图)中。然后,我们使用基于成本的优化系统地搜索候选蓝图,利用学习模型来预测蓝图在工作负载上的效用。我们使用这种技术构建了BRAD,这是第一个云数据虚拟化系统。BRAD用户向单个SQL接口发出查询,该接口可以由多个云数据库服务支持。BRAD自动选择最适合每个查询的引擎,配置和管理资源以最小化成本,并适应工作负载变化来演变基础设施。我们的评估显示,与无服务器自动缩放或HTAP系统相比,BRAD满足用户定义的性能目标并提高成本节省1.6-13倍。
  • 图表
  • 解决问题
    如何虚拟化云数据管理,使得开发人员可以声明性地指定工作负载要求,并依靠自动化解决方案设计和管理物理实现?
  • 关键思路
    使用蓝图规划技术将数据基础设施设计决策投影到统一的设计空间(蓝图)中,然后利用基于成本的优化系统地搜索候选蓝图,利用学习模型预测蓝图在工作负载上的效用,从而构建BRAD,第一个云数据虚拟化系统。
  • 其它亮点
    BRAD用户可以通过单个SQL接口发出查询,该接口可以由多个云数据库服务支持。BRAD自动选择每个查询最合适的引擎,配置和管理资源以最小化成本,并适应工作负载变化。实验结果表明,BRAD满足用户定义的性能目标,并且与无服务器自动扩展或HTAP系统相比,可以提高1.6-13倍的成本节约。
  • 相关研究
    近期的相关研究包括:1. AWS Glue DataBrew:一种可视化数据准备工具;2. DataHub:一种开源的数据中心,用于管理和发现数据集;3. DataJoint:一种开源的Python工具包,用于管理和共享科学数据。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问