今天上班,一到工位上,就有同事和我说有客户反映自己的容器的一些指标在监控平台不上报了,我当时一看机器所在的监控,发现确实是这样
在这里插入图片描述
确实存在某个点开始数据就没了,主要这个点当时也没有任何的操作变更,于是就开始开启了排查思路

总结链路:
链路是这个样子
Grafana -> prom -> servicemonitor -> service -> endpoint -> pod(daemonset)

当时发现service也有,endpoint也有,然后访问边缘端的metric接口发现也有数据,但就是 Grafana 上没有数据,排查步骤如下

  1. 确认是部分机器存在丢失,说明整个链路没有彻底断掉,怀疑是这个节点上报存在网络问题

  2. 在机器上ping外网发现没问题

  3. 然后我们查看这个service对应的endpoint,居然发现这个service没有这个endpoint,关键label也能匹配上,这就很奇怪了

  4. 于是我们在找这个 endpoint 的异常,发现一个这个很奇怪的 annotation
    在这里插入图片描述
    然后一排查发现这个就是代表 endpoint 太多超出限制导致被截断了, 确实我们的集群有超过1000个node,导致这个限制被触发了

  5. 查阅资料发现k8s在1.19之前默认的endpoint就只支持1000个,在1.19之后引入了新的CRD:endpointslices,通过分片的方式能够支持1000以上的endpoint;参考这篇技术博客 medium.com

  6. 但是查看我们TKE集群的版本,是1.22版本,也就是已经有了endpointslice,但是这个endpointslice 没有被用上,这就很奇怪了,于是继续排查prometheus

  7. 在网上查询到这样一个 changelog
    在这里插入图片描述
    说明prometheus会自动支持endpointslice的发现,但是我们的集群就是没有,于是紧急拉oncall排查,发现的缺失集群的prometheus的版本太低了,而且机器的数量刚好是1020个,导致有20个机器的指标丢失,没有被service映射到后端的endpoint

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/86655.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/86655.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/86655.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

官方 Linker Scripts 语法和规则解析(2)

系列文章目录 官方 Linker Scripts 语法和规则解析(1) 官方 Linker Scripts 语法和规则解析(2) 官方 Linker Scripts 语法和规则解析(3) 链接脚本(Linker Scripts)语法和规则解析(自官方手册) 7.9. 链接脚…

CentOS 7 通过YUM安装MySQL 8.0完整指南

一、准备工作:更新系统与YUM源 # 1. 更换阿里云镜像源 wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo# 2. 清理并重建缓存 yum clean all yum makecache# 3. 升级系统所有包 yum -y update 二、安装MySQL 8.0 1. 下载…

qq邮箱 新版 怎么去掉个性签名?

qq邮箱 新版 怎么去掉个性签名? 新版的qq邮箱,用着还不错,特别是搜索,比以前好多,以前加载的时候,搜索框里有一行字,加载不完,就没法搜索,特别菜。现在好多了。 不过现在…

C++:string类(1)

一.初步了解STL STL是Standard Template Library的缩写,中文译为标准模板库,是C标准库的重要组成部分。它本质上是一套基于模板的通用编程工具,通过模板技术实现了数据结构和算法的抽象与复用,让开发者无需重复编写基础功能&…

如何避免静态变量初始化中的异常

确保初始化表达式的安全性 基本数据类型初始化 对于基本数据类型(如int、double、boolean等)的静态变量初始化,要确保赋值的表达式是合法的。例如,在初始化一个int类型的静态变量时,避免出现除数为零的情况。 class Sa…

【151】基于Springboot+Vue实现的校园订餐管理系统小程序(有文档+PPT+视频)

系统介绍 视频演示 基于SpringbootVue实现的校园订餐管理系统小程序(有文档PPT视频) 基于SpringbootVue实现的校园订餐管理系统小程序采用前后端分离的架构方式,系统设计了管理员、商家、用户三种角色,系统分为管理端、小程序端&…

从 0 到 1:基于 Qwen3 Embedding 的 RAG 智能问答系统搭建指南

RAGFlow 是一个基于深度文档理解的开源 RAG(检索增强生成)引擎。 与 LLM 集成后,它能够提供真实的问答功能,并以来自各种复杂格式数据的可靠引用为支撑。 教程链接:OpenBayes 控制台 使用云平台:OpenBayes signup -…

Prompt Distillation for Efficient LLM-based Recommendation

题目 基于LLM的高效推荐的快速蒸馏 论文地址:https://dl.acm.org/doi/10.1145/3583780.3615017 摘要 大语言模型(LLM)在各种任务上表现出了无与伦比的建模能力,例如多步推理,但是这些模型的输入大部分仅限于纯文本&am…

JDBC 工具类:1.0到3.0版本

一、引言 在 Java 开发中,与数据库的交互是一项常见且重要的任务。JDBC(Java Database Connectivity)作为 Java 语言访问数据库的标准 API,为我们提供了统一的接口来操作各种数据库。然而,每次进行数据库操作都编写大…

实验室建设案例 | 洛阳职业技术学院—人工智能实验室

院校简介 洛阳职业技术学院位于千年古都、牡丹花城、丝路起点洛阳,是一所由洛阳市政府举办的公办高职院校,成立于2011年,办学历史可追溯到1945年的豫西公学。学校全面贯彻党的教育方针,围绕落实立德树人根本任务,秉承“…

vue2中,修改对象数组中元素对应的属性,页面不更新的问题解决

有如下代码: // 有一个数组 let dataAry [{name: haha, age: 20},{name: hello, age: 21} ] // 这个数组在模板中使用了v-for进行循环 v-for"one of dataAry" :name"one.name" :address"one.address"// 子组件中使用如下&#xff…

代理模式:控制对象访问的守门员[特殊字符],优雅实现功能增强与访问控制!

代理模式:控制对象访问的守门员🔐,优雅实现功能增强与访问控制! 文章目录 代理模式:控制对象访问的守门员🔐,优雅实现功能增强与访问控制!前言:为什么需要代理&#xff1…

《人间词话》PPT课件

《人间词话》简介 《人间词话》是王国维所著的一部文学批评著作。《人间词话》作于1908~1909年,最初发表于《国粹学报》。该作是作者接受了西洋美学思想之洗礼后,以崭新的眼光对中国旧文学所作的评论。 《人间词话》PPT课件下载 夸克网盘分享…

解剖智能运维三基石:Metrics/Logs/Traces

3秒知识卡 三基石关系: Metrics(指标)→ 系统脉搏(CPU/错误率) Logs(日志)→ 事件日记(错误堆栈/用户行为) Traces(追踪)→ 血缘地图(…

从代码学习深度学习 - 情感分析:使用卷积神经网络 PyTorch版

文章目录 前言加载数据集一维卷积最大时间汇聚层textCNN模型定义模型加载预训练词向量训练和评估模型总结前言 在之前的章节中,我们探讨了如何使用循环神经网络(RNN)来处理序列数据。今天,我们将探索另一种强大的模型——卷积神经网络(CNN)——并将其应用于自然语言处理…

深入解析分布式训练基石:ps-lite源码实现原理

分布式机器学习框架是现代推荐、广告和搜索系统的核心支撑。面对海量训练数据和高维稀疏特征,参数服务器(Parameter Server, PS) 架构应运而生。作为早期经典实现的ps-lite因其简洁性和完整性,成为理解PS原理的绝佳切入点。本文将…

IDEA 插件开发:Internal Actions 与 UI Inspector 快速定位 PSI

在开发 IntelliJ 平台插件的过程中,你常常需要搞清楚 某个 IDE 弹框背后是如何操作 PSI(Program Structure Interface) 的。下面这篇笔记将介绍如何通过 Internal Actions、UI Inspector 以及调试技巧快速定位 PSI 调用链。 1. 启用 Internal…

26考研|数学分析:多元函数微分学

前言 本章我们将进行多元函数微分学的学习,多元函数微分学与一元函数微分学相对应,涉及到可微性、中值定理、泰勒公式等诸多问题的探讨与研究,本章难度较大,在学习过程中需要进行深度思考与分析,才能真正掌握这一章的…

数星星--二分

https://www.matiji.net/exam/brushquestion/17/4498/F16DA07A4D99E21DFFEF46BD18FF68AD 二分思路不难&#xff0c;关键的区间内个数的确定 #include<bits/stdc.h> using namespace std; #define N 100011 #define inf 0x3f3f3f3f typedef long long ll; typedef pair&…

Oracle/PostgreSQL/MSSQL/MySQL函数实现对照表

函数列表清单 函数作用OraclePOSTGRESQLMSSQLMYSQL求字符串长度LENGTH(str)LENGTH(str)LEN(str)LENGTH(str)字符切割SUBSTR(str,index,length)SUBSTR(str,index,length)SUBSTRING(str,index,length)SUBSTRING(str,index,length)字符串连接str1||str2||str3...strNstr1||str2||…