12 HBase

文章目录

  • 12 HBase
    • 12.1 HBase存储结构
    • 12.2 HBase的写流程
    • 12.3 HBase的读流程
    • 12.6 HBase的合并
    • 12.7 RowKey设计原则
    • 12.8 RowKey如何设计
    • 12.9 HBase二级索引原理

12.1 HBase存储结构

在这里插入图片描述
架构角色:
1)Master
实现类为HMaster,负责监控集群中所有的 RegionServer 实例。主要作用如下:
(1)管理元数据表格hbase:meta,接收用户对表格创建修改删除的命令并执行
(2)监控region是否需要进行负载均衡,故障转移和region的拆分。
通过启动多个后台线程监控实现上述功能:
①LoadBalancer负载均衡器
周期性监控region分布在regionServer上面是否均衡,由参数hbase.balancer.period控制周期时间,默认5分钟。
②CatalogJanitor元数据管理器
定期检查和清理HBase:meta中的数据。meta表内容在进阶中介绍。
③MasterProcWAL Master预写日志处理器
把Master需要执行的任务记录到预写日志WAL中,如果Master宕机,让backupMaster读取日志继续干。
2)Region Server
Region Server实现类为HRegionServer,主要作用如下:
(1)负责数据cell的处理,例如写入数据put,查询数据get等
(2)拆分合并Region的实际执行者,有Master监控,有regionServer执行。
3)Zookeeper
HBase通过Zookeeper来做Master的高可用、记录RegionServer的部署信息、并且存储有meta表的位置信息。
HBase对于数据的读写操作时直接访问Zookeeper的,在2.3版本推出Master Registry模式,客户端可以直接访问Master。使用此功能,会加大对Master的压力,减轻对Zookeeper的压力。
4)HDFS
HDFS为HBase提供最终的底层数据存储服务,同时为HBase提供高容错的支持。

12.2 HBase的写流程

在这里插入图片描述
写流程:
写流程顺序正如API编写顺序,首先创建HBase的重量级连接
(1)读取本地缓存中的Meta表信息;(第一次启动客户端为空)
(2)向ZK发起读取Meta表所在位置的请求;
(3)ZK正常返回Meta表所在位置;
(4)向Meta表所在位置的RegionServer发起请求读取Meta表信息;
(5)读取到Meta表信息并将其缓存在本地;
(6)向待写入表发起写数据请求;
(7)先写WAL,再写MemStore,并向客户端返回写入数据成功。

12.3 HBase的读流程

在这里插入图片描述
创建连接同写流程。
(1)读取本地缓存中的Meta表信息;(第一次启动客户端为空)
(2)向ZK发起读取Meta表所在位置的请求;
(3)ZK正常返回Meta表所在位置;
(4)向Meta表所在位置的RegionServer发起请求读取Meta表信息;
(5)读取到Meta表信息并将其缓存在本地;
(6)MemStore、StoreFile、BlockCache
同时构建MemStore与StoreFile的扫描器,
MemStore:正常读
StoreFile:
根据索引确定待读取文件;
再根据BlockCache确定读取文件;
(7)合并多个位置读取到的数据,给用户返回最大版本的数据,如果最大版本数据为删除标记,则不给不返回任何数据。

12.6 HBase的合并

Compaction分为两种,分别是Minor Compaction和Major Compaction。

12.7 RowKey设计原则

(1)rowkey长度原则
(2)rowkey散列原则
(3)rowkey唯一原则

12.8 RowKey如何设计

1)使用场景:
大量用户信息保存在HBase中。
2)热点问题:
由于用户的id是连续的,批量导入用户数据后,很有可能用户信息都集中在同一个region中。如果用户信息频繁访问,很有可能该region的节点成为热点。
3)期望: 通过对Rowkey的设计,使用户数据能够分散到多个region中。
4)步骤:
(1)预分区
通过命令

create     'GMALL:DIM_USER_INFO','INFO',SPLITS=>['20','40','60','80']

把用户信息表(GMALL:DIM_USER_INFO) 分为5个region : [00-20), [20-40), [40-60), [60-80), [80-99]
(2)写入时反转ID
把用户ID左补零10位(根据最大用户数),然后反转顺序。
比如:用户id为1457,反转处理后变为7541000000; 根据前两位分到region [60-80),
用户id为1459,反转处理后变为9541000000;根据前两位分到 region [80-99]
这样连续的用户ID反转后由于Rowkey开头并不连续,会进入不同的region中。
最终达到的效果可以通过Web UI进行观察:
在这里插入图片描述
如上图,用户数据会分散到多个分区中。
注意:在用户查询时,也同样根据需要把ID进行反转后进行查询。

12.9 HBase二级索引原理

1)原理
协处理器:协助处理数据,可以在向原始表中写入数据之后向索引表中写入一条索引数据。
2)种类及用法
(1)全局 读多写少
单独创建表专门用于存储索引,索引表数据量比原始表小,读取更快速。但是写操作会写两张表的数据,跨Region,需要多个连接。
(2)本地 写多读少
将索引数据与原表放在一起(Region),加在一起比原表数据量大,读取相对变慢,但是由于在一个Region,所以写操作两条数据用的是同一个连接。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/85311.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/85311.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/85311.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue3 + TypeScript + Element Plus 表格实例null检查方法

代码分析&#xff1a; // 表格实例对象 const tableRef ref<ElTableExtendedInstance | null>(null); // 表格列配置列表 const columnConfigs ref<IColumnConfig[]>([{ prop: "index", label: "序号", width: 60 },{ prop: "batchNo&…

Neo4j常见语法-unwind

unwind的用法&#xff08;UNWIND 是一个强大的操作符&#xff0c;用于将集合&#xff08;列表、数组&#xff09;展开为多行数据。它类似于关系型数据库中的 UNNEST 或 LATERAL JOIN&#xff0c;是 Cypher 查询中处理集合数据的核心工具&#xff09; &#xff08;1&#xff09;…

JavaEE-Spring-IoCDI

Spring是⼀个开源框架, 他让我们的开发更加简单. 他⽀持⼴泛的应⽤场 景, 有着活跃⽽庞⼤的社区, 这也是Spring能够⻓久不衰的原因. 但是这个概念相对来说, 还是⽐较抽象. ⽤⼀句更具体的话来概括Spring, 那就是: Spring 是包含了众多⼯具⽅法的 IoC 容器 容器是⽤来容纳…

CppCon 2017 学习:10 Core Guidelines You Need to Start Using Now

C.45: 不要定义一个仅仅初始化成员变量的默认构造函数&#xff0c;而是使用类内成员初始化器 如果你有一个默认构造函数&#xff0c;它的唯一作用是给成员变量赋默认值&#xff08;如 1、2、3&#xff09;&#xff0c;这更清晰、简单的方法是直接在成员变量声明时使用类内初始…

Java并发编程实战 Day 28:虚拟线程与Project Loom

【Java并发编程实战 Day 28】虚拟线程与Project Loom 文章内容 在“Java并发编程实战”系列的第28天&#xff0c;我们将聚焦于**虚拟线程&#xff08;Virtual Threads&#xff09;**和 Project Loom&#xff0c;这是 Java 在高并发场景下的一次重大革新。随着现代应用对性能和…

Linux系统移植⑦:uboot启动流程详解-board_init_r执行过程

Linux系统移植⑦&#xff1a;uboot启动流程详解-board_init_r执行过程 在uboot中&#xff0c;board_init_r 是启动流程中的一个关键函数&#xff0c;负责完成板级&#xff08;board-specific&#xff09;的后期初始化工作。以下是关于该函数的详细说明&#xff1a; 1. 函数作…

OpenStack入门体验

1.1云计算概述 相信大家都听到很多的阿里云、腾讯云、百度云等等这些词,那到底什么是云计算?云 计算又能做什么? 1.1.1什么是云计算 云计算(cloud computing)是一种基于网络的超级计算模式,基于用户的不同需求,提供所需的资源,包括计算资源、存储资源、网络资源等。云计算…

RK 安卓10/11平台 HDMI-IN 调试

这篇文章我们介绍一下在安卓9、10、11的版本上&#xff0c;rk平台的hdmi-in功能是如何实现的&#xff0c;下篇文章我们再介绍安卓12之后的版本有了什么变化。希望对在rk平台调试hdmi-in功能的朋友有一些帮助。 目录 &#xff08;1&#xff09;概述 &#xff08;2&#xff09;…

MongoDB学习记录(快速入门)

MongoDB核心 基础概念 数据库 数据库是按照数据结构来组织、存储和管理数据的仓库。在内存中运行的&#xff0c;一旦程序运行结束或者计算机断电&#xff0c;程序运行中的数据都会丢失。我们需要将一些程序运行的数据持久化到硬盘之中&#xff0c;以确保数据的安全性。数据库…

阿里一面:微服务拆分需要考虑什么因素?

要拆分微服务&#xff0c;首先我们要了解微服务拆了会有什么问题&#xff1f;怎么合理拆服务&#xff1f; 拆分服务会带来什么问题&#xff1f; 举个电商系统下单扣库存的例子。 对于单体应用&#xff0c;通讯在进程内部进行&#xff0c;下单方法调用扣库存方法&#xff0c;…

3D高斯泼溅和4D高斯

1.高斯函数 想象你往平静的湖水里扔一块石头&#xff0c;水波会以石头落点为中心向外扩散&#xff0c;形成一个逐渐衰减的圆形波纹。高斯函数的形状就和这个波纹类似&#xff1a; 中心最高&#xff08;石头落点&#xff0c;波峰最强&#xff09;。越往外&#xff0c;高度&…

comfyui插件和comfyui mac安装

mac comfyui安装包 ComfyUI.zip&#xff0c;官方最新0.3.40&#xff0c;如果后续官方有迭代&#xff0c;可以直接通过git更新源码升级 comfyui插件下载&#xff0c;解压放到custom_nodes目录下&#xff0c;包含 comfyui-animatediff-evolved&#xff08;视频插件&#xff09; 和…

面试题SpringCloud

SpringCloud有哪些特征&#xff1f; 分布式/版本化配置服务注册与发现路由服务到服务的调用负载均衡断路器领导选举和集群状态分布式消息传递 SpringCloud核心组件&#xff1f; Eureka 注册中心Ribbon 客户端负载均衡Hystrix&#xff1a; 服务容错处理Feign:声明式Rest客户端Zu…

ASR-PRO语音识别可能出现的问题

ASR-PRO语音识别可能出现的问题 4月份有一天刷到牢大/爱丽丝语音自开关灯设备&#xff0c;心血来潮&#xff0c;博主也是浅尝了一下&#xff0c;由此也总结一下&#xff0c;实现此项目会出现的问题。 在实现爱丽丝开关灯模块时ASRPRO语音识别可能出现的问题如下&#xff1a; …

苍穹外卖--缓存菜品Spring Cache

Spring Cache是一个框架&#xff0c;实现了基于注解的缓存功能&#xff0c;只需要简单地加一个注解&#xff0c;就能实现缓存功能。 Spring Cache提供了一层抽象&#xff0c;底层可以切换不同的缓存实现&#xff0c;例如&#xff1a; ①EHCache ②Caffeine ③Redis 常用注解…

个人简历制作MarkDown模板

MarkDown制作个人简历的模板放在了github上&#xff0c;大家如有需求&#xff0c;请自取&#xff1a; https://github.com/QQQQQQBY/ResumeTemplate 介绍一下此模板的特点&#xff1a; &#x1f338;个人面试期间使用的、整理的简历格式&#xff0c;现在分享给大家。 ⭐简历采…

【MySQL数据库 | 第五篇】DDL操作2

文章目录 当前数据库student的数据数据表操作 - 修改&删除&#x1f4d6;修改操作增加字段&#x1f44f;案例&#xff1a;向数据表student中添加字段 id修改字段的数据类型【只能修改字段的属性】&#x1f44f;案例&#xff1a;将student表中字段age的属性由tinyint unsigne…

【浏览器插件】如何开发一个Chrome浏览器插件

这篇文章来介绍一下,如何开发一个自己的Chrome浏览器插件程序。 Chrome浏览器插件,其实是让浏览器替我们执行我们自己写的代码,既然要让浏览器执行代码,那么首先,就需要定义一个规范,也就是说,需要让Chrome浏览器知道,你写的程序是一个插件。 这就需要介绍一下插件中…

详细讲解Redis为什么被设计成单线程

Redis 被设计成单线程的原因主要有以下几点&#xff0c;这些原因涉及性能优化、复杂性控制、数据一致性以及适用场景等多个方面&#xff1a; 1. 简化设计与实现 避免锁竞争&#xff1a;多线程环境下&#xff0c;多个线程访问共享资源时需要加锁来保证数据一致性。锁的使用会增…

Hive 逻辑优化器

Optimizer PointLookupOptimizer 作用&#xff1a;把符合条件的 OR 表达式转为 IN。 参数hive.optimize.point.lookup 设置是否开启 PointLookupOptimizer&#xff0c;默认为 true. 参数 hive.optimize.point.lookup.min 控制多少个 OR 表达式转为 IN&#xff0c;默认 31。 例…