在做多年的数据仓库项目,数据湖也在做,但是做完发现,这个不是传统数据库里面的ODS吗?

好多公司做数据湖,就是把数据湖做成了ODS层(贴源数据层),难道真的数据湖就是这样等于ODS吗?最近在接触国外一些数据湖项目,才发现,我们还是传统的思路。

数据湖在我们的理解里面,最多的词,"流批一体",“iceberg,hudi”,“存算分离”,是不是很多公司都是这样做的。但是这个真的数据湖吗。你问他数据湖有那些特点,他会说,CDC,spark,flink,流批一体,三剑客(iecberg,hudi和dealta,)。ppt 画的内容重点都在讲cdc ,flink 里面各种算子。等等。数据湖是这样吗,销售在讲数据湖,ppt 画一个湖,湖里有个猫在钓鱼,钓到鱼,装到数据仓里面。大数人理解都是这样,可是,我问湖里面有没有螃蟹(非结构化),钓到螃蟹放到哪里,这些人都傻眼了,还有一些人,硬套iceberg ,社区各种问iceberg 怎么存非结构化。

我们数据湖做出来的内容,还是ODS,数仓,数据集市,报表这一套流程。无非从技术上,多了cdc,实时计算,flink,存算分离,doris ,hadoop+MPP 这一大堆技术。并且ODS大部分就是做数仓的团队在维护,业务人员想用数据,都是给做成报表,或者做成数据接口API,更有把数据卸载另外一个数据库,给到业务系统。

最近在接触一个国外的一家公司数据湖项目,先说一些了解的情况,用的技术都差不都,用的微软的Azure,对象存储,微软一套开发工厂+pgsql(数仓)+BI。技术没有啥新奇的。具体说一下他们数据湖怎么做的。

他们对数据湖的概念,是业务系统不是IT部门做数仓一个团队搞得。数据湖,是所有团队参与的。比如:他们有数据湖管理平台。主要数据接入,数据权限管理,数据大部分是业务系统上传的csv文件,个别有json.也有从数据库cdc数据。他们会结合对象存储。划分权限。每个部门或者个人,都有你文件夹的权限。你可以上传你部门的数据,但是别人是看不到的,如果数仓需要拿你的数据,需要你给一个路径,或者文件地址。类似百度网盘。里面会有数据文件。需要处理,会有专门人处理数据。第二:功能就是可以上传任何数据,csv,图片,视频,Parquet,Avro ,啥格式都有。如果数仓要数据,或者ML算法那边需要数据,就会给一个目录路径。第三个:就是对每个文件有生命周期或者权限记录跟踪,这个文件分享后,谁有权限操作,给谁用。文件是离线的,还是实时更新的。都有日志记录。

他们的平台,其实没有啥新奇,但是对数据湖的理解。这里面的权限,支持各种文件的录入。数据文件的分享交互,而不是数据库,表。他们给你的是一个元数据。里面描述的文件路径,加工方式,数据文件格式。当然里面也有iceberg表,但是它只是数据文件的一种,而给你的只是文件目录,里面记录Parquet 格式的文件,但是你可以从元数据看到,表的信息。至于说,你怎么加工,你只管去这里面获取数据就行。如果是离线的,里面每天会生成文件夹。按照日期定时生成目录。元数据里面会告诉你数据的频度。你可以根据情况使用。

其实他们数据湖的数据还是各个业务系统的(所属权)。而不是我们在hive 里面建设好几个库,或者一个库,在表的前面加上业务编号。这些数据采集后,属于谁的,其实都没有明确。我们因为是数仓团队接入的,理论上还是数仓的。其他团队要用,或者修改,你肯定不愿意。你怕把你的ods给整坏了。

他们的基于数据目录+元数据 平台管理。只是给你分享数据目录,这个概念,我觉得应该才是数据湖的形状属性。数据湖一定是,鱼虾,海豚,鲨鱼,啥都应该有。不是两个数据库相互导数据。数据湖一定是多部门参与,多团队共建。而不是某一个团队的专属。

最后总结:1.数据湖的数据接入,应该多样性,csv,cdc,数据文件,http等等,都应该可以对接。2.数据湖还是要以文件存储,什么文件都可以,要有权限管理。3.基于数据元的管理,要对文件的描述,不管是结构化,非机构,都应该有元数据描述。4.可以分享数据文件,数据文件应该还是有归属权,是谁的数据文件,就是谁的资产,你想给谁,可以分享。共同参与。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/912384.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/912384.shtml
英文地址,请注明出处:http://en.pswp.cn/news/912384.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 数据分析与可视化 Day 6 - 可视化整合报告实战

🎯 今日目标 整合数据分析与可视化结果生成结构化报告用代码自动生成完整的图文分析文档熟悉 Jupyter Notebook / Markdown 图表 报告生成流程 🧩 一、项目背景:学生成绩分析报告 数据来源:students_cleaned.csv(含姓…

服务器、树莓派/香橙派部署HomeAssistant与小爱音箱联动

HomeAssistant功能介绍与多平台部署实战:CentOS服务器、树莓派、香橙派部署及小爱音箱联动控制 一、HomeAssistant简介 HomeAssistant是一款基于Python开发的开源智能家居自动化平台,它最大的特点是高度集成和自定义。通过HomeAssistant,用…

内存泄漏系列专题分析之二十四:内存泄漏测试Camera相机进程内存指标分布report概述

【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了: 这一篇我们开始讲: 内存泄漏系列专题分析之二十四:内存泄漏测试Camera相机进程内存指标分布report概述 目录 一、问题背景 二、:内存泄漏测试Camera相机进程内存指标分布report概述 2.1:Camera领域相机进…

华为堆叠理论及配置

一,堆叠基本概念 1.1交换机角色 主交换机(Master):主交换机负责管理整个堆叠。**堆叠系统中只有一台主交换机。**备交换机(Standby):备交换机是主交换机的备份交换机。堆叠系统中只有一台备交换…

【数字经济】数据即产品架构在数字经济时代的应用

数据即产品架构在数字经济时代的应用 在数字经济中,数据已成为核心生产要素,“数据即产品”(Data-as-a-Product)架构通过系统化封装原始数据,实现其可交易、可交付的产品化价值。以下是其架构设计与应用解析&#xff…

MySQL 中的时间序列数据分析与处理

在互联网应用和企业业务系统中,特别是现在当下环境电商以及跨境电商火爆的情况下,时间序列数据无处不在,如电商订单时间、用户登录日志、设备监控数据等。MySQL 作为主流数据库,具备强大的时间序列数据处理能力。本文将结合电商订…

STM32——MDK5编译和串口下载程序+启动模式

一、MDK5编译 1.1 编译中间文件 还可通过 .map文件计算程序大小 中间文件 > 下载到开发板中的文件 > .hex 二、串口下载 2.1 前提须知 2.2 串口硬件链接(M3、M4系列) M7无串口下载 PC端需安装 CH340 USB 虚拟串口驱动:CH340 USB 虚…

HyperWorks仿真案例:拓扑优化与激光增材制造的完美结合挖掘轻量化结构的新潜力

许多技术创新都基于自然界中生物结构的设计。通过不断进化,大自然在数百万年间已学会根据各种形状的功能对形状进行调整,从而最大程度地提高效率。当工程师设法构建坚固而轻盈的结构时,这些自然界中的示例可以提供重要线索。在目前的研究项目…

在Windows系统部署本地智能问答系统:基于百度云API完整教程

引言 在人工智能时代,搭建私有化智能问答系统能有效保护数据隐私并提升响应效率。本教程将手把手教你在Windows环境中,通过百度云API构建专属智能问答系统,全程无需服务器,仅需本地计算机即可运行! 一、环境准备 系统…

Vue的watch函数实现

<script setup> import { watch, ref, reactive, toRefs } from vue;const count ref(0); const obj reactive({name: 张三,age: 18 });// 我们可以使用toRefs&#xff0c;将reactive对象中的属性转换为ref对象&#xff0c;保持响应性&#xff01;&#xff01; const {…

Tomcat 安装使用教程

&#x1f4cc; 什么是 Tomcat&#xff1f; Apache Tomcat 是一个开源的 Java Servlet 容器&#xff0c;也是运行 Java Web 应用最常用的服务器之一&#xff0c;支持 Servlet、JSP 等规范。 &#x1f9f0; 一、准备工作 1. 系统要求 操作系统&#xff1a;Windows / Linux / m…

【邀请】点击邀请链接参加阿里云训练营活动,完成学习送礼品+户外折叠凳,一个小时就能完成

点击邀请链接参加阿里云训练营活动&#xff0c;完成学习送礼品户外折叠凳&#xff0c;快的话一个小时就能完成。 7月28日23:59前完成。 OSS进阶应用与成本优化训练营 礼品如下&#xff1a; 包尖钢笔/祈福小神仙积木/雨伞/不锈钢餐具随机发放 户外折叠凳

用户行为序列建模(篇六)-【阿里】DSIN

简介 DSIN&#xff08;Deep Session Interest Network&#xff09;是阿里巴巴于2019年提出的点击率预估模型。相比于DIN、DIEN&#xff0c;考虑了用户行为序列的内在结构&#xff08;序列是由session组成的&#xff0c;在每个session内&#xff0c;用户行为是高度同构的&#…

现代Web表情选择器组件:分类系统与实现详解

你好呀&#xff0c;我是小邹。今天给博客的emoji表情进行了归类、补充&#xff0c;具体优化如下。 表情选择器的核心价值在于其分类系统。本文将深入解析表情分类体系的设计与实现&#xff0c;通过完整代码示例展示如何构建一个专业级的表情选择器组件。 一、表情分类系统设计…

华为云Flexus+DeepSeek征文 |华为云ModelArts Studio集成OpenAI Translator:开启桌面级AI翻译新时代

华为云FlexusDeepSeek征文 |华为云ModelArts Studio集成OpenAI Translator&#xff1a;开启桌面级AI翻译新时代 引言一、ModelArts Studio平台介绍华为云ModelArts Studio简介ModelArts Studio主要特点 二、OpenAI Translator介绍openai-translator简介openai-translator主要特…

GitHub 趋势日报 (2025年06月27日)

&#x1f4ca; 由 TrendForge 系统生成 | &#x1f310; https://trendforge.devlive.org/ &#x1f310; 本日报中的项目描述已自动翻译为中文 &#x1f4c8; 今日获星趋势图 今日获星趋势图 817 twenty 655 awesome 476 free-for-dev 440 Best-websites-a-programmer-shoul…

Java语法通关秘籍:this、构造方法到String核心精粹

文章目录 &#x1f50d; **一、就近原则与this关键字**1. **成员变量**2. **局部变量** &#x1f6e0;️ **二、构造方法&#xff08;构造器&#xff09;**1. **标准格式**2. **有参构造实战**3. **灵魂三问** ❓ &#x1f4e6; **三、JavaBean黄金标准**&#x1f9e0; **四、对…

@Cacheable 等缓存注解是不是也用到了 AOP?

Spring 的声明式缓存注解&#xff08;Cacheable, CachePut, CacheEvict 等&#xff09;是 AOP 技术在实际应用中最强大、最经典的范例之一&#xff0c;其原理与 Transactional 非常相似。 核心思想&#xff1a;一个智能的“秘书” 你可以把 Cacheable 的 AOP 实现想象成一个极…

解锁云原生微服务架构:搭建与部署实战全攻略

目录 一、引言二、微服务拆分2.1 拆分的必要性2.2 拆分方法2.3 注意事项 三、服务注册与发现3.1 概念与原理3.2 常用组件介绍3.3 实践案例 四、负载均衡4.1 作用与原理4.2 实现方式4.3 负载均衡算法4.4 案例与代码实现4.4.1 项目依赖配置4.4.2 配置 Ribbon4.4.3 代码实现负载均…

Python 数据分析与可视化 Day 7 - 可视化整合报告实战

好的&#xff0c;我们进入&#xff1a; &#x1f9e0; 第5周 第7天 &#x1f3af; 主题&#xff1a;测试复盘 项目封装实战 ✅ 今日目标 回顾第5周数据分析与可视化核心知识对整个“学生成绩分析系统”进行项目封装与模块化拆分增加命令行参数支持&#xff0c;提升可复用性…