这是一份非常详细和实用的“运维日常工作100条”清单。它涵盖了从日常巡检、变更管理、故障处理到安全、优化和文档等运维工作的方方面面，可以作为运维工程师的日常工作指南和检查清单。

运维日常工作100条

一、日常巡检与监控 (20条)

检查核心监控大盘：查看整体业务健康状态，包括流量、错误率、响应时间等。
检查服务器资源水位：CPU使用率、内存使用率、磁盘使用率、磁盘Inode使用率。
检查网络流量：入向/出向带宽是否异常，连接数是否过高。
检查应用/服务状态：确认所有关键服务的进程是否存活，端口是否监听。
检查日志监控：查看Error、Exception、Warning等关键错误日志是否有突增。
检查数据库状态：主从复制是否正常，慢查询数量，连接池使用情况。
检查中间件状态：消息队列堆积情况，缓存命中率，缓存服务连接数。
检查证书状态：确保即将到期（如60天内）的SSL证书被及时识别。
检查备份状态：确认每日备份任务是否成功完成，备份文件大小是否正常。
检查安全告警：查看SIEM、WAF、HIDS等安全设备的告警信息。
检查域名解析：对核心域名进行dig/nslookup，确认解析正常。
检查CDN状态：查看CDN带宽、缓存命中率、回源状态是否正常。
检查负载均衡器：后端服务器健康检查状态，会话保持等配置。
检查云服务配额：云账号的ECS、EIP、磁盘等配额是否充足。
检查费用消耗：查看云资源每日费用消耗是否有异常激增。
检查定时任务（Cron）：查看历史执行记录，确认无失败或长时间运行。
检查核心业务链路：通过自动化脚本或拨测，模拟用户关键操作（如登录、下单）。
检查依赖的第三方服务状态：关注其官方状态页（Status Page）。
整理巡检报告：将巡检结果记

运维日常工作100条

一、日常巡检与监控 (20条)

相关文章

OpenHarmony子系统介绍

博士招生 | 英国谢菲尔德大学招收计算机博士

如何理解面向过程和面向对象，举例说明一下？

深入了解评估与微调中使用的Graders：原理、实现与最佳实践

行缓存（line buffer）在图像卷积中的工作方式

【数据分享】中国371个城市的坡度矢量数据和excel数据

《WINDOWS 环境下32位汇编语言程序设计》第7章图形操作（1）

数据结构-HashMap

[系统架构设计师]安全架构设计理论与实践（十八）

AI适老服务暖人心：AI适老机顶盒破数字鸿沟、毫米波雷达护独居安全，银发生活新保障

Linux应用软件编程---网络编程1（目的、网络协议、网络配置、UDP编程流程）

常见开源协议详解：哪些行为被允许？哪些被限制？

服务器硬盘进行分区和挂载

【C初阶】数据在内存中的存储

AI 自动化编程 trae 体验2 帮我分析一个项目

VMware虚拟机中CentOS 7 报错 ping: www.xxx.com: Name or service not known

Java面试-自动装箱与拆箱机制解析

《VMware 安装 CentOS 7.9 虚拟机详细教程（含图解步骤）》

新能源知识库（84）什么是IEC白皮书

从零开始学习JavaWeb-15