背景

操作系统运维常常遇到以下问题:

1.问题定界浪费大量人力:当业务出现问题时,客户在不清楚是操作系统问题还是业务问题时,往往会拉上所有相关团队一起排查,浪费人力。

2.问题定位时间长:通过操作系统指标排查业务问题时,运维人员需要从大量的指标中查找具体原因,浪费大量时间。

3.问题现场丢失:等到真正开始排查问题的根本原因时,往往已经错过了最佳时机,现场信息已经丢失,使得问题更难解决。

为了应对上述问题,阿里云推出了一站式运维管理平台操作系统控制台(阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台),提出了异常告警和诊断联动的一套解决方案,对异常指标进行智能检测。SysOM(System Operation&Maintenance)是阿里云操作系统控制台的运维组件。当检测出异常事件后,异常告警与诊断功能进行联动,自动对异常指标进行诊断,自动化分析问题,并以分数形式量化系统健康程度,同时输出诊断结论。这样可以对普通用户屏蔽底层指标,减少用户自己分析的时间和精力,提升运维效率。

在业务出现异常波动的情况下,通过健康分,就可以判断是否为操作系统层面的问题,并确定具体受影响的方面。一旦确认问题源自操作系统,进一步检查相关告警信息,能够明确是哪些关键性能指标出现了异常。最后,通过详细分析诊断报告,可以精准定位问题的根本原因,从而采取针对性的措施进行修复。

操作系统控制台通过自动的异常检测和诊断问题,解决了操作系统运维面对的三大难题,让小白也能轻松做操作系统运维。

案例:通过自动化告警与诊断解决运维痛点

偶发调度延时大运维

近期,汽车行业某用户反馈系统中出现了间歇性的调度抖动现象。这种异常情况在短时间内会自行消失,但这也导致了难以在问题出现的瞬间捕获到实时的调用栈信息,从而为问题的根因分析及定位带来了挑战。此类瞬时性故障不仅增加了故障排查的技术难度,也对系统的稳定性和用户体验构成了潜在威胁。

用户诉求:

1.对问题进行快速定界和定位,确定分析方向。

2.抓住转瞬即逝的现场,对现场进行分析。

阿里云操作系统控制台(简称操作系统控制台)正好能满足用户诉求,于是在我们的建议下,用户开通了操作系统控制台。开通后,操作系统控制台会对各类可能出现异常的指标进行全天候的监控和异常检测,发现问题会立即发出告警,并且在分数上反映出来问题。操作系统控制台将系统指标分为延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation)四大类指标,系统哪方面出了问题,一目了然。

在下一次问题复现时,集群的分数出现了变化,延迟类型的分数下降。

由于集群中仅有一个节点出现问题,因此集群分数下降幅度不太明显,从节点的分数上看更加清楚,节点出现了较大延迟,对业务造成了一定影响。

操作系统控制台在计算实例的总分时,将实例从大到小分为三个层级:集群(Cluster)、节点(Node)和容器组(Pod)。每个层级的健康评分基于其内部各项检查指标的得分,以及上一层级的综合评分来共同计算得出。具体而言,操作系统控制台将计算延迟(Latency)、饱和度(Saturation)、负载(Load)和错误(Errors)这四个类型的分数。每个类型的分数由当前层级中该类型异常项的得分计算得出,最终四个类型的分数将被汇总以确定当前层级的总健康评分。

这种多维度、多层次的评估方法能够更全面地反映系统的整体健康状况,确保在不同层级上都能及时发现并解决潜在问题,从而提升系统的稳定性和可靠性。

在发现问题后,操作系统控制台出现了告警,并在第一时间进行了自动诊断,由于诊断及时,抓住了问题现场。

通过分析诊断报告中提供的延迟时间、进程信息及现场堆栈,用户很快就定位到了存在问题的应用进程,开始有的放矢地进一步深入分析,最终解决了困扰用户多时的偶发的调度抖动问题。

偶发网络抖动

用户在查看监控过程中观察到实例存在偶发的网络延迟现象,但当进一步调查时,该问题已经自行消失,未能获取更多详细的信息。因此,难以定位具体是哪个进程出现了何种异常情况。

这个问题同样可以通过操作系统控制台的告警+诊断联动进行排查,在我们的建议下,用户安装了操作系统控制台,等待问题复现。

在问题复现时,节点分数下降,通过四个类型分数的情况,可以很快判断出,集群出现了延迟方面的问题。

操作系统控制台出现了告警,并进行了自动诊断。

用户接收到告警之后,第一时间查看了诊断报告,通过报告,用户很快就定位到了出现问题的业务进程,并开始有针对性地继续分析,最终解决了偶发网络抖动的问题。

总结

上述两个案例可以看出,操作系统控制台对于偶发的抖动、延时等问题特别有用。这些问题出现的时间不确定,发生时对业务有一定影响,但是问题持续时间较短,现场很快就消失了,运维人员如果不能在较短时间内排查到根因就很难继续深入分析。

操作系统控制台采集系统多个维度的关键指标,并对它们进行全天候的自动监测。一旦检测出问题,第一时间向外投递,并且进行自动化诊断,尽可能的保留现场的更多信息,并给出根因分析结论,为运维人员定位问题提供了充足的弹药。

在实现过程中,操作系统控制台采用了 Flink+微服务的实现方案,利用微服务模块化的优势,保证多个微服务互相之间不受干扰,提升了系统的稳定性。同时利用 flink 流式数据处理的优势,提升异常检测效率。

在告警投递时,操作系统控制台考虑到了告警过的可能产生的告警疲劳问题,为了优化告警管理并提升用户体验,操作系统控制台提供了以下解决方案:

1.告警聚合与持续时间展示:对于在同一时间段内连续触发的同类告警事件,系统将自动进行合并,并在告警通知中明确标注该异常状态的持续时长。

2.用户自定义关注级别接口:提供一个可配置的关注度调整接口,允许终端用户根据自身需求及业务场景灵活设定对不同类型告警事件的关注程度。通过这种方式,可以更好地满足多样化运维需求。

3.智能告警抑制提示机制:当检测到短时间内频繁出现某一类未被响应的告警时,系统将主动向用户发出提醒,建议其考虑是否需要降低对此类事件的关注度或完全忽略。若用户选择执行相应操作,则未来类似告警的发生频率将依据新设置的规则进行调整,从而有效避免不必要的干扰。

4.自动化根因分析与即时反馈:每当有新的告警产生时,系统将立即启动内置的诊断流程,迅速定位故障源头,并将详细的故障原因分析结果实时更新至告警详情中。

展望未来

智能监控存在指标过多、难理解、依赖专家经验及问题事后排查困难等问题。AIOps 通过机器学习算法分析运维数据,优化系统稳定性和资源利用效率。SysOM 对延迟、流量、错误、饱和度几类指标设计了双模块异常检测算法,同时提供可定制配置接口以满足个性化需求。

在未来,操作系统控制台将致力于深入探索异常检测的潜力,通过持续优化检测算法与完善异常检测架构,以期为用户提供更为卓越的服务体验。我们将聚焦于提升系统的智能化水平,采用先进的机器学习和人工智能技术,确保能够实时、精准地识别并响应各类异常情况,从而显著增强系统的稳定性和安全性。此外,我们还将不断迭代更新我们的异常处理机制,确保其能够适应日益复杂的系统环境,为用户创造一个更加安全可靠的操作系统。

未来,操作系统控制台将接入各种告警平台,以更多种的方式触达运维人员。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/912903.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/912903.shtml
英文地址,请注明出处:http://en.pswp.cn/news/912903.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自由学习记录(65)

其他脚本语言也可以热更新,但 Lua 特别适合,游戏主程序通常是 C,Lua 只是逻辑脚本,改 Lua 不影响主程序运行 语言应用场景PythonWeb 后端 / 数据处理服务JavaScript浏览器端热重载 / React HMRC#Unity 的 ILRuntime / HybridCLR …

抗辐照芯片在核电厂火灾探测器中的应用优势与性能解析

一、引言 核电厂作为能源供应的关键设施,其安全性备受关注。火灾是威胁核电厂安全运行的重要风险因素之一。在核电厂的特殊环境下,火灾探测器肩负着及时发现火情、保障核电厂安全运行的重任。然而,核电厂存在高能辐射等复杂环境因素&#xf…

FastAPI+Sqlite+HTML的登录注册与文件上传系统:完整实现指南

作为一名开发者,你是否曾想过亲手搭建一个包含用户注册、登录认证和文件上传功能的完整 Web 系统?今天,我将带大家一步步拆解一个基于FastAPI(后端)和原生 JavaScript(前端)的前后端分离项目&am…

【动态规划】P11188 「KDOI-10」商店砍价|普及+

本文涉及知识点 C动态规划 P11188 「KDOI-10」商店砍价 题目背景 English Statement. You must submit your code at the Chinese version of the statement. 您可以点击 这里 下载本场比赛的选手文件。 You can click here to download all tasks and examples of the c…

国产LHR3040芯片是REF5040的代替品

LHR3040是一款噪声低、漂移低、精度高的电压基准产品系列。这些基准同时支持灌电流和拉电流,并且具有出色的线性和负载调节性能。采用专有的设计技术实现了出色的温漂(3ppm/℃)和高精度(0.05%)。这些特性与极低噪声相结合,使LHR30XX系列成为高精度数据采…

专题:2025AI营销市场发展研究报告|附400+份报告PDF汇总下载

原文链接:https://tecdat.cn/?p42800 在数字化浪潮席卷全球的当下,AI营销正成为驱动企业增长的核心动力。 从市场规模来看,AI营销正经历着爆发式增长,生成式AI的出现更是为其注入了强大活力。在应用层面,AI已渗透到营…

深入对比 Python 中的 `__repr__` 与 `__str__`:选择正确的对象表示方法

文章目录 核心概念对比1. 根本目的差异2. 调用场景对比深入解析:何时使用哪种方法场景 1:开发者调试 vs 用户展示场景 2:技术表示 vs 简化视图高级对比:特殊场景处理1. 容器中的对象表示2. 日志记录的最佳实践3. 异常信息展示最佳实践指南1. 何时实现哪个方法?2. 实现原则…

万能公式基分析重构补丁复分析和欧拉公式原理推导

基分析, x11 x2-1 x3i 存在加法法则 x1x20 所以x1-x2 存在链式基乘法法则 x1x1*x1x2*x2 x2x3*x3 x3x1*x3 -x1x2x3 将链式基乘法操作 二次,三次,直至n次化简得 一次 x1 -x1 x3 矩阵 x1 x1 x2 x2 x3 …

OpenCV 4.10.0 移植

OpenCV 4.10.0 移植使用 概述移植编译下载解压编译环境编译 编译完成OpenCV 库文件及其作用 使用实例参考代码 参考 概述 OpenCV(Open Source Computer Vision Library)是计算机视觉领域最广泛使用的开源库之一,提供了丰富的功能模块&#xf…

Tomcat10.0以上版本编译成功但报错HTTP状态 404

Tomcat正常启动且项目已成功部署,但出现404错误。 HTTP状态 404 - 未找到package org.example;import javax.servlet.ServletException; import javax.servlet.annotation.WebServlet; import javax.servlet.http.HttpServlet; import javax.servlet.http.HttpSer…

在Flask项目中用Git LFS管理大文件(PDF)的完整实践

在Flask项目中用Git LFS高效管理大文件(以农机说明书PDF为例) 背景与需求 在农机管理系统等实际项目中,经常需要上传和管理大量超大文件(如200MB以上的PDF说明书、图片等)。如果直接用Git管理这些大文件,不仅会导致仓库膨胀、clone/pull速度变慢,还可能遇到推送失败等…

朴素贝叶斯算法案例演示及Python实现

目录 一、基本原理二、案例演示2.1 未平滑处理2.2 Laplace平滑处理 三、Python实现 一、基本原理 朴素贝叶斯思想:依靠特征概率去预测分类,针对于代分类的样本,会求解在该样本出现的条件下,各个类别出现的概率,哪个类…

RAG从入门到高阶(二):Retrieve-and-Rerank

在上一篇教程中,我们了解了 Naive RAG 的基本原理和实现。它就像一个刚刚学会查找资料的新手,虽然能找到一些信息,但有时候找到的并不够精准,甚至会有一些无关的干扰。 今天,我们将介绍 Retrieve-and-Rerank RAG&…

【脚本】Linux磁盘目录挂载脚本(不分区)

以下是一个不带分区,直接挂载整个磁盘到指定目录的脚本。该脚本会检查磁盘是否已挂载,自动创建文件系统(可选),并配置开机自动挂载: #!/bin/bash# 磁盘直接挂载脚本(不分区) # 使用…

壁纸网站分享

壁纸网站链接: 1.Microsoft Design - Wallpapers:https://wallpapers.microsoft.design/?refwww.8kmm.com 2.哲风壁纸:https://haowallpaper.com/wallpaperForum 3.壁纸湖:https://bizihu.com/ 4.极简壁纸:https://bz…

XILINX FPGA如何做时序分析和时序优化?

时序分析和时序优化是FPGA开发流程中关键步骤,确保设计在目标时钟频率下正确运行,避免时序违例(如建立时间或保持时间不足)。以下以Xilinx Kintex-7系列FPGA为例,详细介绍时序分析和时序优化的方法、工具、流程及实用技…

linux screen轻松管理长时间运行的任务

以下是针对 Alpine Linux 环境下 screen 的安装与使用指南,结合迁移数据场景的具体操作步骤: 1. 安装 screen‌ 在 Alpine Linux 中需通过 apk 安装(非默认预装): apk add screen 验证安装: screen --…

VR制作公司业务范围

VR制作公司概念、能力与服务范围 虚拟现实(Virtual Reality, VR)技术,作为当代科技的前沿领域,通过计算机技术模拟出真实或虚构的世界环境,使用户能够沉浸其中并进行交互体验。VR制作公司,是这一领域的专业…

STM32之28BYJ-48步进电机驱动

目录 一、引言 二、28BYJ-48步进电机简介 2.1 基本特性 2.2 内部结构 2.3 工作模式 2.4 驱动原理 2.5 性能特点 2.6 驱动方案 2.7 使用注意事项 三、ULN2003驱动板简介 3.1 基本概述 3.2 电路结构 3.3 驱动原理 3.4 接口定义 3.5 使用注意事项 四、…