仅为个人知识总结与记录

Site Reliability Engineer:站点可靠性工程(SRE = 软件工程师 + 运维专家 + 可靠性专家)
相对传统的运维工程师,SER 注重开发,效率,追求自动化。对于 SRE 工程师,追究的就是利用或者使用开发工具,来降低开发或者运维的手动处理任务的时间。

一. SRE的核心职责与目标

1. 确保系统的可靠性

这是首要目标。通过设计、构建工具和流程来最大化服务的可用性(Uptime)、性能、延迟和容错能力。

2. 自动化运维任务

SRE厌恶重复性手工操作。他们会编写代码(通常是Python、Go等)来自动化部署、配置管理、监控告警响应、故障恢复等任务,消除“Toil”(枯燥、重复、手动、战术性、无持久价值的工作)。

3. 容量规划与管理

预测系统未来的资源需求(计算、存储、网络),确保在业务增长时系统能平滑扩展,同时优化资源利用率,控制成本。

4. 监控与可观测性

  • 监控: 建立全面的监控系统(Metrics、Logs、Traces),实时了解系统健康状态。
  • 告警: 设计精准、可操作的告警策略,避免告警疲劳。
  • 可观测性: 深入理解系统内部状态,快速定位和诊断复杂问题。

5. 应急响应与事后复盘

  • On-Call: 参与轮值待命,快速响应和处理线上故障。
  • 故障处理: 领导或参与故障排查、恢复和根因分析。
  • 事后复盘: 组织并撰写事后报告,坦诚分析故障原因,制定切实可行的改进措施(Action Items),并跟踪落实,防止同类故障再次发生。强调“不指责文化”。

6. 性能优化

识别系统瓶颈(应用、数据库、网络、基础设施等),进行优化以提升效率和用户体验。

7. 变更管理

8. 定义和跟踪SLO/SLI/SLA:

  • SLI: 服务等级指标(量化衡量服务可靠性的指标,如请求延迟、错误率)。
  • SLO: 服务等级目标(SLI应达到的目标值或范围)。
  • SLA: 服务等级协议(对客户承诺的SLO,通常带有业务层面的后果)。

9. 平衡可靠性与创新速度

SRE的关键哲学之一是管理“错误预算”。如果服务可靠性(满足SLO)很高,说明有“预算”可以承受一定的风险,可以允许开发团队进行更激进的发布或变更,推动创新。反之,如果预算耗尽,则需要优先提升可靠性。

二. SRE工程师的核心技能栈

三. SRE 的地位

1. 支撑业务增长

2. 提升研发效率

3. 控制成本

4. 数据驱动决策

5. 促进DevOps文化

附录:
  1. SRE和运维的区别是什么?

  2. 什么是站点可靠性工程 (SRE)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/94149.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/94149.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/94149.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

StarRocks学习4-查询优化与性能调优

✅ 1. 执行计划分析(EXPLAIN) 🌟 作用: 用于查看 SQL 的执行路径,判断是否命中索引、物化视图、Join 策略、并行度等。 📌 常用命令: EXPLAIN SELECT ...; EXPLAIN VERBOSE SELECT ...;&#x1…

CentOS系统安装Git全攻略

文章目录✅ 方法一:使用 yum 或 dnf 包管理器安装(推荐)1. 更新系统软件包(非必须)[^1]2. 安装 Git3. 验证安装✅ 方法二:从源码编译安装(适用于需要自定义版本或配置)1. 安装依赖包2. 下载 Git 源码3. 编译…

VR交通安全学习机-VR交通普法体验馆方案

VR交通安全学习机是一种基于虚拟现实技术的互动式教育设备,旨在通过虚拟环境模拟真实的交通场景,帮助用户深入了解交通规则、交通信号、道路安全等知识,并通过沉浸式的体验让他们亲身感受到不遵守交通规则的后果。无论是驾驶员、行人还是骑行…

算法题(188):团伙

审题: 本题需要我们通过解析所有人之间的关系,从而判断出朋友团体的总个数并输出 思路: 方法一:扩展域并查集 由于这里涉及对朋友/敌人等关系集合的频繁操作,所以我们需要使用并查集来操作,但是普通的并查集…

C++开发/Qt开发:单例模式介绍与应用

单例模式是软件设计模式中最简单也是最常用的一种创建型设计模式。它的核心目标是确保一个类在整个应用程序生命周期中只有一个实例,并提供一个全局访问点。笔者白话版理解:你创建了一个类,如果你希望这个类对象在工程中应用时只创建一次&…

Linux笔记---策略模式与日志

1. 设计模式设计模式是软件开发中反复出现的问题的通用解决方案,它是一套套被反复使用、多数人知晓、经过分类编目的代码设计经验总结。设计模式并非具体的代码实现,而是针对特定问题的抽象设计思路和方法论。它描述了在特定场景下,如何组织类…

关于多个el-input的自动聚焦,每输入完一个el-input,自动聚焦到下一个

讲解原理或者思路:如果你有多个el-input,想要实现每输入完一个输入框,然后自动聚焦到下一个输入框,同理,如果每删除一个输入框的值,自动聚焦到上一个输入框。条件那么首先要做的就是,设置条件,在…

AI 赋能教育变革:机遇、实践与展望

引言说明教育在社会发展中的重要地位,以及传统教育面临的困境。引出 AI 技术为教育变革带来新机遇,阐述研究其在教育中应用的价值。AI 为教育带来的机遇个性化学习支持:讲解 AI 通过分析学生学习数据,如答题情况、学习时间等&…

(一)八股(数据库/MQ/缓存)

文章目录 项目地址 一、数据库 1.1 事务隔离级别 1. 事务的四大特性 2. Read Uncommited脏读(未提交读) 3. Read Commited幻读(sql默认已提交读) 4. Repeatable Read 5. Serializable 6. Snapshot(快照隔离) 7. 代码开启 8. For update和Repeatable Read的区别 1.2 各种锁 …

STM32H750 CoreMark跑分测试

STM32H750 CoreMark跑分测试🔎CoreMark跑分测试查询网站:https://www.eembc.org/coremark/scores.php📜 CoreMark源码:https://www.github.com/eembc/coremarkCoreMark移植和配置参考:https://community.st.com/t5/stm…

RabbitMQ如何确保消息发送和消息接收

消息发送确认 1 ConfirmCallback方法 ConfirmCallback 是一个回调接口,消息发送到 Broker 后触发回调,确认消息是否到达 Broker 服务器,也就是只 确认是否正确到达 Exchange 中。 2 ReturnCallback方法 通过实现 ReturnCallback 接口&#xf…

Linux:进程间通信-管道

Linux:进程间通信-管道 前言:为什么需要进程间通信? 你有没有想过,当你在电脑上同时打开浏览器、音乐播放器和文档时,这些程序是如何协同工作的?比如,浏览器下载的文件,为什么能被文…

Jmeter + FFmpeg 直播压测遇到的问题及解决方案

1、压测机安装FFmpeg,下载安装步骤可见:https://zhuanlan.zhihu.com/p/692019886 2、Jmeter与FFmpeg位数要一致,不允许在32位的进程中运行一个64位的程序,反之亦然 3、OS进程取样器(Thread Group -> Add -> Sa…

安卓app、微信小程序等访问多个api时等待提示调用与关闭问题

安卓app、微信小程序访问webapi,将需要一时间,我们称之为耗时操作,其它诸如密集型计算、访问文件与设备等亦是如此。在这个期间我们应该跳出提示,告知用户正在等待,并且很多时候,在等待时不允许用户再对UI进…

一个状态机如何启动/停止另一个状态机

一个状态机如何启动/停止另一个状态机 这个过程主要依赖于动作列表(Action List) 中的特定动作项和状态管理服务(ARA::SM)提供的API。 1. 通过动作列表(Action List)进行预配置控制 这是最常见的方式&#…

基于IPO智能粒子优化的IIR滤波器参数识别算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.部分程序 4.算法理论概述 5.完整程序 1.程序功能描述 IIR(Infinite Impulse Response)滤波器即无限冲激响应滤波器,其输出不仅与当前和过去的输入有关,还与过去的输出…

欧州服务器String 转 double 有BUG?

string 转 double 的常见问题通常与文化差异、格式解析或特殊值处理相关,而非框架本身的 “BUG”。以下是可能导致转换异常的常见场景及解决方案: 文化差异导致的解析问题 现象:同样的字符串(如 “1.23” 或 “1,23”)…

鸿蒙中网络诊断:Network分析

上面的图很熟悉吧 Network 面板的表格列出了所有请求,每一列都提供了关键信息: Name: 请求的资源名称和路径。 Status: HTTP 状态码(诊断核心)。200成功,304未修改(缓存),404找不到…

HarmonyOS 实战:6 种实现实时数据更新的方案全解析(含完整 Demo)

摘要 在当下的应用开发中,用户体验越来越依赖“实时性”。消息要第一时间送达、订单状态要立刻刷新、数据变化不能延迟……这些需求推动了“实时数据更新”成为应用的必备功能。在鸿蒙系统(HarmonyOS)中,我们既可以用系统内置的数…

第十六届蓝桥杯青少组C++省赛[2025.8.10]第二部分编程题(4、矩阵圈层交错旋转)

参考程序&#xff1a;#include <bits/stdc.h> using namespace std;const int MAXN 105; int a[MAXN][MAXN];int main() {int n;if (!(cin >> n)) return 0;for (int i 0; i < n; i)for (int j 0; j < n; j)cin >> a[i][j];int layers n / 2; // 每…