Elasticsearch 的冷热架构(Hot-Warm-Cold Architecture)是一种针对时序数据(如日志、指标等)的成本与性能优化方案,通过将数据在不同生命周期的存储需求分层处理,兼顾性能、容量和成本。其核心思想是:让最新、最频繁访问的数据(热数据)存储在高速硬件上,较旧、较少访问的数据(温/冷数据)迁移到廉价大容量硬件上


核心架构分层

层级数据特征硬件配置使用场景
Hot最新写入,高频访问高性能节点(SSD、高CPU/内存)实时写入、快速查询
Warm近期数据,中低频访问中等性能节点(SSD/HDD混合)历史数据分析
Cold旧数据,极少访问(归档)高容量低成本节点(大容量HDD)长期归档,偶尔查询
Optional: Frozen极旧数据(只读)对象存储(如S3)极少访问,解冻才能查询

关键实现步骤

1. 节点角色划分
  • 为不同层级配置专属节点,在 elasticsearch.yml 中标记节点角色:
    # Hot 节点
    node.roles: ["data_hot"]# Warm 节点
    node.roles: ["data_warm"]# Cold 节点
    node.roles: ["data_cold"]
    
2. 配置索引生命周期管理 (ILM)
  • 策略示例(将数据按时间自动迁移):
    PUT _ilm/policy/hot_warm_cold_policy
    {"policy": {"phases": {"hot": {"min_age": "0ms","actions": {"rollover": { "max_size": "50gb", "max_age": "1d" }, // 滚动创建新索引"set_priority": { "priority": 100 }                  // 高查询优先级}},"warm": {"min_age": "1d",    // 1天后进入温层"actions": {"set_priority": { "priority": 50 },"allocate": { "require": { "data_type": "warm" } // 迁移到 Warm 节点},"forcemerge": { "max_num_segments": 1 } // 合并段减少资源占用}},"cold": {"min_age": "7d",    // 7天后进入冷层"actions": {"set_priority": { "priority": 0 },"allocate": { "require": { "data_type": "cold" }  // 迁移到 Cold 节点}}},"delete": {"min_age": "30d",   // 30天后删除"actions": { "delete": {} }}}}
    }
    
3. 应用ILM策略到索引模板
PUT _index_template/logs_template
{"index_patterns": ["logs-*"], "template": {"settings": {"index.lifecycle.name": "hot_warm_cold_policy","index.routing.allocation.require.data_type": "hot" // 初始写入 Hot 节点}}
}

核心优势

  1. 成本优化
    • 冷数据用廉价HDD存储,降低50%+存储成本。
  2. 性能保障
    • 热数据独占SSD资源,确保写入/查询速度。
  3. 扩展灵活
    • 按需扩展不同层级节点(如单独扩容Cold层)。
  4. 自动化管理
    • ILM自动处理数据流转,无需人工干预。

注意事项

  • 硬件差异:确保Hot节点使用SSD,Cold节点使用大容量HDD。
  • 分片分配:Cold层可减少分片副本数(如从2副本降为1副本)。
  • 冻结层(Frozen):对极少访问数据使用 searchable snapshots,从对象存储加载数据(查询慢但成本极低)。
  • 版本兼容:ILM功能需ES 6.6+,完整冷热架构建议7.10+。

实际应用场景

  • 日志分析系统:新日志写入Hot节点实时分析,旧日志移至Cold层归档。
  • 电商指标:当天订单数据在Hot层快速聚合,上月数据存Cold层备份。
  • 安全审计:近期审计记录在Warm层可查,历史数据存Frozen层合规保留。

通过冷热分离,ES集群在资源有限的情况下可最大化平衡性能与成本,是处理海量时序数据的标准实践。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/95050.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/95050.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/95050.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MFC自动生成的文件详解:YoloClassMFC.cpp 的逐行解释、作用及是否能删除】

大家好,欢迎来到我的MFC编程入门系列。上次我们聊了MFC项目创建后的核心文件区别(项目名.cpp、.h、Dlg.cpp 和 Dlg.h),今天针对读者的反馈,专门来拆解其中最重要的一个文件:项目名.cpp(这里以用…

玄机靶场 | 冰蝎3.0-jsp流量分析

文章目录一、冰蝎3.0流量特征二、索引三、题目列表步骤#1黑客IP是什么?步骤#2黑客上传的Webshell名是什么?步骤#3黑客上传WebShell的时间是多少?(格式如:flag{YYYY-MM-DD HH:MM:SS})步骤#4木马的解密key是什…

基于物理信息神经网络(Physics-Informed Neural Network, PINN)的三维热传导方程求解器MATLAB

代码实现了一个基于物理信息神经网络(Physics-Informed Neural Network, PINN)的三维热传导方程求解器。以下是详细分析:🧠 一、主要功能 main.m: 构建一个全连接神经网络用于近似三维热传导方程的解 ( u(x, y, z, t) …

按钮计数器:jQuery / AngularJS / Vue / React / dagger.js 实现对比与技术解读

代码来源:https://codepen.io/dagger8224/pen/myeKgVQ 任务:实现“按钮点击 1”计数器,对比不同框架的写法与特性,并给出选型建议。 目录 代码解读(逐框架) jQuery(命令式 DOM)Angu…

useEffect中直接使用 await报错

在 useEffect 中直接使用 await 会报错,因为 useEffect 的回调函数不能是 async 函数。有几种正确的方式来处理异步操作: 方法一:在 useEffect 内部创建 async 函数并立即调用 这是最常用的方式。 import React, { useEffect } from react;co…

卷积神经网络为什么要填充(Padding)

填充(Padding)是卷积神经网络中一个至关重要且巧妙的设计。它的核心目的可以概括为:为了解决卷积操作导致的特征图尺寸缩小和边缘信息丢失问题。

C++ 并发编程:全面解析主流锁管理类

在 C 的并发世界里,管理共享资源就像是在一个繁忙的十字路口指挥交通。如果指挥不当,就会发生混乱甚至致命的“死锁”。C 标准库提供的各种锁管理工具,就是我们手中的“交通信号灯”,它们各自拥有独特的职能,帮助我们编…

Spring boot 启用第二数据源

1. 数据源配置代码:import com.alibaba.druid.pool.DruidDataSource; import lombok.extern.slf4j.Slf4j; import org.springframework.boot.autoconfigure.condition.ConditionalOnProperty; import org.springframework.boot.autoconfigure.jdbc.DataSourceBuilde…

Wi-Fi 时延与掉包的关键因素全解析

在无线网络性能优化中,时延(Latency)与掉包(Packet Loss)是最核心的两个指标。本文将从 物理层、MAC层、系统栈、业务形态与环境 等多个维度,对 Wi-Fi 时延与掉包的关键因素进行全面梳理,并结合…

《Python 文本分析实战:从单词频率统计到高效可视化的全流程指南》

《Python 文本分析实战:从单词频率统计到高效可视化的全流程指南》 一、引言:小任务背后的大世界 在我多年的开发与教学中,文本处理始终是一个绕不开的主题。无论是日志分析、自然语言处理,还是搜索引擎、推荐系统,几乎所有数据驱动的系统都离不开对文本的理解。而“统计…

12KM无人机高清图传通信模组——打造未来空中通信新高度

在无人机技术飞速发展的今天,高清图传和稳定的通信模块无疑是提高无人机作业效率和可靠性的关键因素。作为新一代无人机核心技术之一,深圳云望物联12KM无人机高清图传通信模组凭借其卓越的性能,正逐步成为行业内的宠儿,成为无人机…

【LeetCode 热题 100】62. 不同路径——(解法二)递推

Problem: 62. 不同路径 文章目录整体思路完整代码时空复杂度时间复杂度:O(m * n)空间复杂度:O(m * n)整体思路 这段代码同样旨在解决 “不同路径” 问题,但它采用的是一种 自底向上(Bottom-Up)的动态规划 方法&#x…

C++ 高阶错误解析:MSVC 与 Qt 全景指南

在 C 开发中,尤其是在 Windows 平台使用 MSVC 或 Qt 框架 时,程序员经常会遇到编译错误、链接错误和运行时异常。本文将系统梳理这些问题,按 语法错误、类型错误、链接错误、Qt 运行错误 分类,并给出 触发示例、原因分析及修复策略…

基于Net海洋生态环境保护系统的设计与实现(代码+数据库+LW)

摘要 随着全球气候变化和人类活动的加剧,海洋生态系统面临着前所未有的威胁。污染、过度捕捞、栖息地破坏等问题严重影响了海洋生物多样性和生态平衡。为了应对海洋生态系统面临的严重威胁,如污染、过度捕捞和栖息地破坏等问题,利用C#语言和…

DoIP路由激活报文

目录 DoIP路由激活报文详解 基本概念 报文结构 响应报文 通信流程 注意事项 **DoIP (Diagnostics over Internet Protocol) 报文详解** **1. DoIP 报文结构** **1.1 通用报文格式** **2. 常见 DoIP 报文类型** **3. 典型 DoIP 报文示例** **3.1 车辆识别请求(广播)** **3.2 车…

学习Python中Selenium模块的基本用法(8:元素操作-2)

定位网页元素后,调用is_displayed函数可以判断元素的显示状态,如百度网站中有默认隐藏的元素,此时即可使用is_displayed函数判断该元素的显示状态,如下面代码所示:driver webdriver.Chrome() driver.get("https:…

双指针:从「LC11 盛最多水的容器」到「LC42 接雨水」

LC11 盛最多水的容器 选择两条线,它们与x轴构成的容器可以盛的水量取决于两条线中较短的那条以及两条线之间的距离。 朴素的思想是使用i和j遍历height中的所有线,但是这样的时间复杂度是O(n2)O(n^2)O(n2)。 我们让i从0开始,j从n-1开始&…

WINTRUST!_GetMessage函数分析之CRYPT32!CryptSIPGetSignedDataMsg函数的作用是得到nt5inf.cat的信息

UEDIT打开nt5inf.cat。第一部分:BOOL _GetMessage(CRYPT_PROVIDER_DATA *pProvData) {DWORD dwMsgEncoding;SIP_SUBJECTINFO *pSubjInfo;SIP_DISPATCH_INFO *pSip;DWORD cbEncodedMsg;BYTE *pbEncodedMsg;DWORD …

编译esp32报错解决办法

报错信息:CMake Error at build/CMakeFiles/git-data/grabRef.cmake:48 (file):file failed to open for reading (No such file or directory):这个错误是由于 Git 的安全检查导致的。从错误信息可以看出,Git 检测到了"可疑的所有权"&#xf…

【AI】常见8大LLM大语言模型地址

序号AI名称地址1 ChatGPT (OpenAI)https://chat.openai.com/2Gemini (Google personal AI assistant)https://gemini.google.com/app3Grok (xAI Grok LLM)https://x.ai/4DeepSeek (DeepSeek AI chatbot)DeepSeek5Claude (Anthropic Claude AI)App unavai…