🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。

✨杭州奥零数据科技官网:http://www.aolingdata.com
✨AllData开源项目:https://github.com/alldatacenter/alldata
✨Gitee组织:https://gitee.com/alldatacenter

摘要:数据湖平台基于开源项目Paimon建设。它融合了Lake格式与LSM结构,支持实时数据同步至数据湖,具备批流一体处理能力,降低数据处理复杂性和成本,还注重生态集成,提供统一数据存储和访问接口。内容主要为以下六部分:

一、在线演示环境
二、功能简介
三、源码编译部署安装
四、访问数据湖平台页面
五、部署后验证与监控
六、常见问题与解决方案

💡Tips:关注「公众号」大数据商业驱动引擎

在这里插入图片描述
🔹AllData数据中台线上正式环境:http://43.138.156.44:5173/ui_moat/
请联系市场总监获取账号密码

在这里插入图片描述
2.1 数据湖平台基于开源项目Paimon建设

数据湖平台支持使用Flink和Spark构建实时Lakehouse架构,实现流式和批处理操作。它融合了Lake格式与LSM结构,支持实时数据同步至数据湖,具备批流一体处理能力,降低数据处理复杂性和成本,还注重生态集成,提供统一数据存储和访问接口。

🔹Paimon开源项目:
https://github.com/apache/paimon-web
🔹Paimon文档地址:https://paimon.apache.org/docs/1.0/concepts/overview/

2.2 数据湖平台功能特点

  • 实时数据同步与处理
  • 高效存储与查询性能
  • 灵活的编程模型与SQL支持
  • 多种运行模式
  • 强大的生态集成能力
  • 数据湖能力
  • 状态管理与容错机制
  • 并发控制与冲突处理

在这里插入图片描述
(引用官网paimon图片)

在这里插入图片描述
💡部署步骤:
在这里插入图片描述

3.1 环境准备

🔹操作系统要求:
推荐使用Linux发行版(如Ubuntu/CentOS),因为大多数大数据技术和分布式系统都针对Unix-like系统进行了优化。

🔹Java环境:
版本:使用JDK 8
配置:设置JAVA_HOME环境变量,验证命令java -version输出正确。

🔹Hadoop/Hive(如需与现有生态集成):
版本:Hadoop 3.x、Hive 3.x,需配置core-site.xml和hdfs-site.xml。
权限:确保运行Paimon的用户有HDFS读写权限。

🔹数据库(元数据存储):
MySQL 8.0+:创建专用数据库paimon_metadata,字符集设为utf8mb4。
连接池配置:建议使用HikariCP,最大连接数设为2 * CPU核心数。

🔹其他依赖:
根据项目需求,可能还需要安装Python解释器及其他基础软件包。

3.2 获取源码
🔹版本选择:建议使用与AllData商业版兼容的Paimon版本。
在这里插入图片描述

3.3 编译构建
🔹安装依赖–进入项目目录后,使用Maven安装项目依赖,执行命令mvn clean install,确保所有依赖项正确下载和安装,为编译构建做好准备。
在这里插入图片描述

🔹基础编译–参数说明:-DskipTests跳过测试(生产环境建议运行测试),-Dmaven.javadoc.skip=true加速编译。
在这里插入图片描述

🔹构建产物–生成target/paimon--bin.tar.gz,解压后包含bin、conf、lib等目录。

🔹常见问题:

依赖下载失败:检查网络代理设置,或手动下载依赖后安装到本地仓库。
编译报错:检查JDK版本、Maven版本是否匹配,或清理缓存后重试(mvn clean)。

3.4 部署及运行配置

🔹核心配置文件:

  • conf/paimon-site.xml
  • conf/log4j2.xm

配置日志级别和滚动策略(建议按天分割,保留7天日志)。
在这里插入图片描述

🔹数据库连接:
在conf/paimon-env.sh中配置JDBC URL
在这里插入图片描述

🔹启动服务--单机模式(测试环境):
在这里插入图片描述

🔹集群模式(生产环境)–使用Kubernetes部署:

修改k8s/deployment.yaml,设置副本数、资源限制(如requests.cpu: 2,limits.memory: 8Gi)。
应用配置:kubectl apply -f k8s/。

🔹验证服务:
访问Web UI(默认端口8080),检查表创建、数据写入是否正常。
使用CLI工具验证:
在这里插入图片描述

3.5 可选配置(性能调优与扩展)

🔹分区策略:
按时间分区(如dt字段)
在这里插入图片描述
按范围分区(如id字段)
在这里插入图片描述

🔹索引优化:
启用Bloom Filter:
在这里插入图片描述

3.6 资源调度与负载均衡
🔹Kubernetes配置:
配置HPA(Horizontal Pod Autoscaler):
配置Node Affinity:将Paimon工作节点绑定到特定标签的节点(如disk-type=ssd)。
在这里插入图片描述

3.7 安全与合规

🔹数据加密:
启用S3服务器端加密(SSE-S3或SSE-KMS)。
配置传输加密:在paimon-site.xml中设置:
在这里插入图片描述

🔹审计日志:
启用Fine-Grained Access Control(FGAC),记录所有DDL/DML操作。
配置Log4j2将审计日志发送到ELK或Splunk。

🔹资源调度与负载均衡:

添加数据节点:
在管理控制台中,可进行添加数据节点的操作,包括基础配置,如项目分组、可用性校验等。例如配置MySQL节点,需要填写连接信息等。

策略配置:
可对数据节点进行策略配置,如修改数据节点、激活数据节点、挂起数据节点、删除数据节点以及查看节点日志等。

🔹Paimon数据节点特定配置:
连接配置:
新建弹窗界面选择Paimon节点类型后,显示基本信息配置模板,包括名称(必须填写,50字符限制,是该数据源在DataPipeline的唯一标识,不允许重复)、描述(选填)、项目(必选,默认为“未分组”)、类型(必选)、版本(必选)等。

HDFS配置:
必填,需上传core-site.xml、hdfs-site.xml文件。

数据库配置:
必选,当选择用户权限所有库时,在链路和任务中可以使用连接用户有权限的所有数据库;当指定数据库后,在链路和任务中仅能使用指定的数据库,这里的数据库本质上是一个路径,示例:/hdfs/paimon/test.db。

认证方式:
必选,支持信任认证和Kerberos认证。

连接参数:
输入Paimon JAVA CLIENT连接支持的所有连接参数。

在这里插入图片描述
4.1 数据湖平台-功能概览
在这里插入图片描述

4.2 数据湖查询中心
在这里插入图片描述在这里插入图片描述

4.3 数据湖元数据管理
在这里插入图片描述

4.4 增量同步中心
在这里插入图片描述

4.5 创建同步作业
在这里插入图片描述
4.6 创建同步作业-编辑(MySQL-Paimon)
在这里插入图片描述

4.7 创建同步作业-编辑(Kafka-Paimon)
在这里插入图片描述

4.8 创建同步作业-编辑(MongoDB-Paimon)
在这里插入图片描述

4.9 创建同步作业-编辑(PostgreSQL-Paimon)
在这里插入图片描述

4.10 提交CDC作业
在这里插入图片描述

4.11 数据湖集群管理
在这里插入图片描述
4.12 新增集群
在这里插入图片描述

4.13 更新集群
在这里插入图片描述

4.14 集群状态检查成功
在这里插入图片描述

在这里插入图片描述

5.1 验证步骤

🔹功能验证:

  • 创建表、写入数据、查询数据,验证结果是否符合预期。
  • 测试并发写入(如100个线程同时写入),检查吞吐量和延迟。

🔹性能测试:

  • 使用TPC-DS或自定义测试集,评估查询性能。
  • 对比不同分区策略和索引配置下的性能差异。

5.2 监控与告警

🔹关键指标:

  • 集群健康:paimon_catalog_table_count、paimon_file_store_file_count。

  • 性能指标:paimon_query_latency_ms、paimon_write_throughput_rows_per_sec。

🔹告警规则:

  • 元数据存储延迟 > 1分钟:触发告警。
  • 查询失败率 > 5%:触发告警。

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/88281.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/88281.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/88281.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java 导出pdf 写出demo 1、需要设置自定义页眉和文字 2、可以插入表格 3、可以插入图片

以下是一个使用 iText 7 库实现 PDF 导出的 Java 示例&#xff0c;包含自定义页眉、文字、表格和图片功能&#xff1a; 添加 Maven 依赖 <dependencies><!-- iText 7 Core --><dependency><groupId>com.itextpdf</groupId><artifactId>ite…

Ntfs!LfsReadRestart函数分析得到Ntfs!LFS_RESTART_PAGE_HEADER

第一部分&#xff1a;0: kd> p Ntfs!LfsPinOrMapData0x8c: f71797f6 ff15a40016f7 call dword ptr [Ntfs!_imp__CcPinRead (f71600a4)] 0: kd> t nt!CcPinRead: 80bf9a5a 6a2c push 2Ch 0: kd> kc# 00 nt!CcPinRead 01 Ntfs!LfsPinOrMapData 02 N…

skywalking-agent-docker镜像

FROM centos:7.9.2009 USER root# 定义 Arthas 目录环境变量 ENV ARTHAS_HOME/opt/arthas# 更改 YUM 源并清理缓存 RUN mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo_bak && \rm -rf /etc/yum.repos.d/* && \curl -o /etc/yum.rep…

数据库开发运维的集成:弥合开发与运维之间的鸿沟

在传统的软件开发工作流程中&#xff0c;数据库变更往往是事后才考虑的问题。应用程序代码遵循定义明确的开发运维实践&#xff0c;包括版本控制、自动测试和持续部署&#xff0c;而数据库变更则经常是由数据库管理员手动执行的高风险操作。这种脱节造成了瓶颈&#xff0c;带来…

PiscTrace应用:从 YOLO-Pose 到深蹲与引体向上计数:实时健身动作分析与实现

随着健身行业的发展&#xff0c;越来越多的智能应用涌现&#xff0c;用于帮助健身者更好地记录和分析运动情况。特别是在体能训练中&#xff0c;俯卧撑和引体向上是两个非常常见的动作&#xff0c;它们通常用来锻炼上半身力量和耐力。为了使训练更加科学和高效&#xff0c;实时…

【unity】webCanvas.enabled = false;和webCanvas.gameObject.SetActive(false);的优缺点比较

在 Unity 中&#xff0c;webCanvas.gameObject.SetActive(false) 和 webCanvas.enabled false 是两种不同的隐藏 UI 的方式&#xff0c;它们的核心区别在于作用范围和对组件状态的影响。理解这些差异能帮助你避免初始化失败、性能问题和逻辑错误。 1核心区别 gameObject.SetAc…

深入探索 pnpm:高效磁盘利用与灵活的包管理解决方案

引言 在现代 JavaScript 开发中&#xff0c;依赖管理效率直接影响开发体验。传统工具如 npm 和 yarn 在大型项目中常面临磁盘冗余和性能瓶颈。pnpm&#xff08;Performant npm&#xff09;通过创新的硬链接和符号链接机制&#xff0c;解决了这些痛点。本文将深入解析 pnpm 的核…

Hive MetaStore的实现和优化

在大数据领域&#xff0c;数据管理与存储至关重要&#xff0c;Hive MetaStore&#xff08;HMS&#xff09;作为 Hive 数据仓库的核心组件&#xff0c;承担着元数据管理的关键职责。随着数据规模不断膨胀&#xff0c;其性能与稳定性面临挑战。本文将深入剖析 HMS 的实现机制&…

一文读懂动态规划:多种经典问题和思路

一、动态规划算法的思想与核心概念框架 1. 动态规划的基本思想 动态规划&#xff08;Dynamic Programming, DP&#xff09;是一种通过将复杂问题分解为重叠子问题&#xff0c;并利用子问题的解来高效解决原问题的方法。其核心思想是避免重复计算&#xff0c;通过存储中间结果&a…

阿幸课堂随机点名

代码功能 这个是一个HTML网页端&#xff0c;简单来说就是可以双击之后运行进行点名。 当然&#xff0c;不局限于课堂点名 代码功能 Excel 导入增强&#xff1a; 增加了列选择器&#xff0c;可以指定从哪一列读取学生姓名 增加了起始行选择器&#xff0c;可以跳过标题行或其…

LeetCode 560: 和为K的子数组

题目描述给定一个整数数组 nums 和一个整数 k&#xff0c;请统计并返回该数组中和为 k 的连续子数组的个数。示例 1&#xff1a;输入&#xff1a;nums [1,1,1], k 2 输出&#xff1a;2示例 2&#xff1a;输入&#xff1a;nums [1,2,3], k 3 输出&#xff1a;2提示&#xff…

微软官方C++构建工具:历史演变、核心组件与现代实践指南

引言&#xff1a;C构建工具的战略意义 在Windows生态系统中&#xff0c;​​微软C构建工具​​&#xff08;Microsoft C Build Tools&#xff09;构成了数百万开发者和应用程序的技术基石。从早期的MS-DOS命令行工具到如今支持​​跨平台开发​​的现代化工具链&#xff0c;微…

探索Cocos_CoilTheRope:一款创新的游戏引擎扩展项目

探索Cocos_CoilTheRope&#xff1a;一款创新的游戏引擎扩展项目 去发现同类优质开源项目:https://gitcode.com/ 是一个基于Cocos2d-x游戏引擎的扩展库&#xff0c;旨在为开发者提供一种简便的方法来实现绳子缠绕和物理交互效果。该项目由DreamLXW开发并维护&#xff0c;为游戏…

爬虫-正则表达式

在线正则表达式测试OSCHINA.NET在线工具,ostools为开发设计人员提供在线工具&#xff0c;提供jsbin在线 CSS、JS 调试&#xff0c;在线 Java API文档,在线 PHP API文档,在线 Node.js API文档,Less CSS编译器&#xff0c;MarkDown编译器等其他在线工具https://tool.oschina.net/…

【BTC】数据结构

目录 那比特币区块链的组织形式到底是以链表的形式&#xff0c;还是树的形式呢&#xff1f; 区块头和区块体与默克尔树的关系 默克尔证明详解 区块链和链表最大的区别就是区块链用哈希指针代替了普通指针。 链表的指针就是指向一个结构体在内存中的地址&#xff0c;而哈希指…

飞算 JavaAI:让 Java 开发效率飙升的智能助手,日常开发全场景应用指南

飞算 JavaAI&#xff1a;让 Java 开发效率飙升的智能助手 &#xff0c;日常开发全场景应用指南 在 Java 开发的日常工作中&#xff0c;开发者常常面临各类重复性劳动与逻辑复杂度挑战。飞算 JavaAI 作为专注于 Java 领域的智能开发助手&#xff0c;能够覆盖从代码生成到项目维护…

8.2 文档预处理模块(二)

一、从0开始&#xff1a;简易RAG实现 在构建更复杂的 RAG 架构之前&#xff0c;我们先从最基础的版本入手。整个流程可以分为以下几个关键步骤&#xff1a; 1.数据导入&#xff1a;加载并预处理原始文本数据&#xff0c;为后续处理做好准备。 2.文本分块&#xff1a;将长文本…

【系统与工具】Linux——Linux简介、安装、简单使用

计算机概论与Linux简介 计算机概论Linux介绍与版本 Linux的规划与安装 Linux与硬件平台密切相关规划硬件与Linux安装 主机规划与磁盘分区安装CentOS、多重引导 简单使用 帮助手册文本编辑器关机 0. Linux介绍与版本 操作系统&#xff08;Linux&#xff09;&#xff1a;高效…

从视频数据到数字孪生:如何构建虚拟与现实的桥梁?

概述 视频数据与三维场景融合渲染技术通过将动态视频与静态三维模型结合&#xff0c;利用GPU加速、WebGL渲染、数字孪生等技术&#xff0c;实现虚拟与现实的交互式融合。该技术广泛应用于智慧城市、工业监控、虚拟现实、游戏特效等领域&#xff0c;能够提升场景的直观性和用户沉…

【笔记】开源 AI Agent 项目 V1 版本 [新版] 部署 日志

kortix-ai/suna at v1 一、最新版本号 V1 二、部署截图 本地开发环境仍然依赖于 Poetry 环境&#xff1a; &#xff08;Python>3.11,<3.13&#xff09; 创建本地 Poetry 虚拟环境 Python 多版本环境治理理念驱动的系统架构设计&#xff1a;三维治理、四级隔离、五项自…