这是一份非常详细和实用的“运维日常工作100条”清单。它涵盖了从日常巡检、变更管理、故障处理到安全、优化和文档等运维工作的方方面面,可以作为运维工程师的日常工作指南和检查清单。
运维日常工作100条
一、日常巡检与监控 (20条)
- 检查核心监控大盘:查看整体业务健康状态,包括流量、错误率、响应时间等。
- 检查服务器资源水位:CPU使用率、内存使用率、磁盘使用率、磁盘Inode使用率。
- 检查网络流量:入向/出向带宽是否异常,连接数是否过高。
- 检查应用/服务状态:确认所有关键服务的进程是否存活,端口是否监听。
- 检查日志监控:查看Error、Exception、Warning等关键错误日志是否有突增。
- 检查数据库状态:主从复制是否正常,慢查询数量,连接池使用情况。
- 检查中间件状态:消息队列堆积情况,缓存命中率,缓存服务连接数。
- 检查证书状态:确保即将到期(如60天内)的SSL证书被及时识别。
- 检查备份状态:确认每日备份任务是否成功完成,备份文件大小是否正常。
- 检查安全告警:查看SIEM、WAF、HIDS等安全设备的告警信息。
- 检查域名解析:对核心域名进行dig/nslookup,确认解析正常。
- 检查CDN状态:查看CDN带宽、缓存命中率、回源状态是否正常。
- 检查负载均衡器:后端服务器健康检查状态,会话保持等配置。
- 检查云服务配额:云账号的ECS、EIP、磁盘等配额是否充足。
- 检查费用消耗:查看云资源每日费用消耗是否有异常激增。
- 检查定时任务(Cron):查看历史执行记录,确认无失败或长时间运行。
- 检查核心业务链路:通过自动化脚本或拨测,模拟用户关键操作(如登录、下单)。
- 检查依赖的第三方服务状态:关注其官方状态页(Status Page)。
- 整理巡检报告:将巡检结果记