大家可能发现了,近些年湖仓一体数据架构被提及的频率越来越高。各家大厂也有湖仓一体架构的实践,也有很多公开分享。 那什么是湖仓一体?为什么出现了湖仓一体架构,换言之,它解决了以前数据仓库、数据湖+数仓两层架构所不能解决的什么问题?
本文会从数仓、数据湖依次介绍,最终介绍LakeHouse湖仓一体架构。
主要参考了CIDR 2021
上Databricks 发表的论文:《 Lakehouse: a new generation of open platforms that unify data warehousing and advanced analytics》。
paper下载地址:https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
一、背景
数据仓库的历史始于帮助企业领导者获取分析洞察,方法是将运营数据库中的数据收集到集中式仓库中,然后用于决策支持和商业智能(BI)。这些仓库中的数据将采用Schema-on-Write
的的方式写入,从而确保数据模型针对下游 BI的使用进行了优化。我们称之为第一代数据分析平台。
这样的数据仓库在十多年前开始面临一些问题:
- 1、这样的数仓将存储和计算资源绑定到同一个设备上,企业不得不为了峰值负载而预留一些资源,随着数据越来越多,这样做的成本也变得越来越昂贵。
- 2、第一代数据仓库主要是针对结构化数据设计的,但是随着互联网的发展,出现了越来越多的半结构化或者非结构化数据,例如视频、音频、文档等,第一代分析平台没有办法很好地处理这样的数据。