【阿里技术】数据湖架构,为什么需要“湖加速”?

湖加速即为数据湖加速,是指在数据湖架构中,为了统一支持各种计算,对数据湖存储提供适配支持,进行优化和缓存加速的中间层技术。这里面出现较早的社区方案应该是Alluxio,Hadoop社区有S3A Guard,AWS有EMRFS,都适配和支持AWS S3,Snowflake在计算侧有SSD缓存,Databricks有DBIO/DBFS,阿里云有EMR JindoFS,大体都可以归为此类技术。

在开源大数据领域,存储/计算分离已经成为共识和标准做法,数据湖架构成为大数据平台的首要选择。基于这一范式,大数据架构师需要考虑三件事情:

  • 第一,选择什么样的存储系统做数据湖(湖存储)?

  • 第二,计算和存储分离后,出现了性能瓶颈,计算如何加速和优化(湖加速)?

  • 第三,针对需要的计算场景,选择什么样的计算引擎(湖计算)?

讨论 资源 资讯
评论0

可用Markdown格式