上一章:机器学习08——集成学习
下一章:机器学习10——降维与度量学习
机器学习实战项目:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备

文章目录

      • 一、聚类任务(无监督学习的核心)
        • (一)形式化描述
      • 二、聚类性能度量(有效性指标)
        • (一)外部指标(与参考模型比较)
        • (二)内部指标(直接评价聚类结果)
      • 三、距离计算(聚类的基础)
        • (一)常用距离
        • (二)属性类型与距离度量
      • 四、原型聚类(基于原型的聚类)
        • (一)k均值算法(k-means)
      • 五、层次聚类(树形结构聚类)
        • (一)AGNES算法(自底向上聚合)
      • 总结

一、聚类任务(无监督学习的核心)

聚类是无监督学习中最核心的任务之一,目标是将无标记样本集划分为若干不相交的“簇”(cluster),以揭示数据内在的分布结构。

(一)形式化描述
  • 给定样本集D={x1,x2,...,xm}D = \{x_1, x_2, ..., x_m\}D={x1,x2,...,xm},每个样本xix_ixi为n维特征向量;
  • 聚类算法将DDD划分为kkk个簇{C1,C2,...,Ck}\{C_1, C_2, ..., C_k\}{C1,C2,...,Ck},满足:
    • 簇间不相交:Cl′∩l′≠lCl=∅C_{l'} \cap_{l' \neq l} C_l = \emptysetCll=lCl=
    • 覆盖所有样本:D=∪l=1kClD = \cup_{l=1}^k C_lD=l=1kCl
  • 簇标记向量λ={λ1;λ2;...;λm}\lambda = \{\lambda_1; \lambda_2; ...; \lambda_m\}λ={λ1;λ2;...;λm}表示样本所属簇(λj∈{1,2,...,k}\lambda_j \in \{1, 2, ..., k\}λj{1,2,...,k},即xj∈Cλjx_j \in C_{\lambda_j}xjCλj)。
    在这里插入图片描述

二、聚类性能度量(有效性指标)

性能度量用于评价聚类结果的优劣,核心是“簇内相似度高、簇间相似度低”,分为外部指标和内部指标。

(一)外部指标(与参考模型比较)
  • 定义:将聚类结果与“参考模型”(如人工标注的簇划分)比较,通过样本对的匹配情况计算。
  • 关键参数
    • aaa:同簇且参考模型中同簇的样本对数量;
    • bbb:同簇但参考模型中不同簇的样本对数量;
    • ccc:不同簇但参考模型中同簇的样本对数量;
    • ddd:不同簇且参考模型中不同簇的样本对数量。
  • 常用指标
    • Jaccard系数(JC):JC=aa+b+cJC = \frac{a}{a + b + c}JC=a+b+ca
    • FM指数(FMI):FMI=aa+b⋅aa+cFMI = \sqrt{\frac{a}{a + b} \cdot \frac{a}{a + c}}FMI=a+baa+ca
    • Rand指数(RI):RI=2(a+d)m(m−1)RI = \frac{2(a + d)}{m(m - 1)}RI=m(m1)2(a+d)
(二)内部指标(直接评价聚类结果)
  • 定义:基于聚类结果自身的统计特性(如距离、密度)评价,无需参考模型。
  • 关键参数
    • avg(C)avg(C)avg(C):簇CCC内样本平均距离;
    • diam(C)diam(C)diam(C):簇CCC内样本最大距离;
    • dmin(Ci,Cj)d_{min}(C_i, C_j)dmin(Ci,Cj):簇CiC_iCiCjC_jCj的最近样本距离;
    • dcen(Ci,Cj)d_{cen}(C_i, C_j)dcen(Ci,Cj):簇CiC_iCiCjC_jCj的中心距离。
  • 常用指标
    • DB指数(DBI):DBI=1k∑i=1kmaxj≠i(avg(Ci)+avg(Cj)dcen(μi,μj))DBI = \frac{1}{k} \sum_{i=1}^k max_{j \neq i} \left( \frac{avg(C_i) + avg(C_j)}{d_{cen}(\mu_i, \mu_j)} \right)DBI=k1i=1kmaxj=i(dcen(μi,μj)avg(Ci)+avg(Cj))(值越小越好);
    • Dunn指数(DI):DI=min1≤i≤k{minj≠i(dmin(Ci,Cj)max1≤l≤kdiam(Cl))}DI = min_{1 \leq i \leq k} \left\{ min_{j \neq i} \left( \frac{d_{min}(C_i, C_j)}{max_{1 \leq l \leq k} diam(C_l)} \right) \right\}DI=min1ik{minj=i(max1lkdiam(Cl)dmin(Ci,Cj))}(值越大越好)。

三、距离计算(聚类的基础)

距离度量是聚类的核心,需满足非负性、同一性、对称性和直递性,不同属性类型需采用不同度量方式。

(一)常用距离
  • 闵可夫斯基距离dist(xi,xj)=(∑u=1n∣xiu−xju∣p)1/pdist(x_i, x_j) = \left( \sum_{u=1}^n |x_{iu} - x_{ju}|^p \right)^{1/p}dist(xi,xj)=(u=1nxiuxjup)1/p,其中:
    • p=2p=2p=2为欧氏距离(最常用);
    • p=1p=1p=1为曼哈顿距离。
(二)属性类型与距离度量
  1. 连续属性:直接使用闵可夫斯基距离;
  2. 离散属性
    • 有序属性:可转换为连续值后用闵可夫斯基距离;
    • 无序属性:用VDM距离
      VDMp(a,b)=∑i=1k∣mu,a,imu,a−mu,b,imu,b∣pVDM_p(a, b) = \sum_{i=1}^k \left| \frac{m_{u,a,i}}{m_{u,a}} - \frac{m_{u,b,i}}{m_{u,b}} \right|^pVDMp(a,b)=i=1kmu,amu,a,imu,bmu,b,ip
      mu,a,im_{u,a,i}mu,a,i为第iii簇中属性uuuaaa的样本数,mu,am_{u,a}mu,a为属性uuuaaa的总样本数);
  3. 混合属性:结合闵可夫斯基距离和VDM:
    MinkovDMp(xi,xj)=(∑连续属性∣xiu−xju∣p+∑无序属性VDMp(xiu,xju))1/pMinkovDM_p(x_i, x_j) = \left( \sum_{连续属性} |x_{iu} - x_{ju}|^p + \sum_{无序属性} VDM_p(x_{iu}, x_{ju}) \right)^{1/p}MinkovDMp(xi,xj)=(连续属性xiuxjup+无序属性VDMp(xiu,xju))1/p

四、原型聚类(基于原型的聚类)

原型聚类假设聚类结构可通过“原型”(如中心、概率分布)刻画,通过迭代优化原型实现聚类。

(一)k均值算法(k-means)
  • 核心思想:最小化簇内平方误差E=∑i=1k∑x∈Ci∥x−μi∥22E = \sum_{i=1}^k \sum_{x \in C_i} \|x - \mu_i\|_2^2E=i=1kxCixμi22μi\mu_iμi为簇CiC_iCi的均值向量)。
  • 算法步骤
    1. 随机选择kkk个样本作为初始均值向量{μ1,μ2,...,μk}\{\mu_1, \mu_2, ..., \mu_k\}{μ1,μ2,...,μk}
    2. 迭代:
      • 簇划分:将每个样本划入距离最近的均值向量对应的簇;
      • 更新均值:计算每个簇的新均值向量μi=1∣Ci∣∑x∈Cix\mu_i = \frac{1}{|C_i|} \sum_{x \in C_i} xμi=Ci1xCix
    3. 终止:均值向量不再更新时停止。
  • 特点:高效易实现,但对初始中心敏感,适用于凸形分布数据。
    在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 模型定义:混合分布pM(x)=∑i=1kαip(x∣μi,Σi)p_M(x) = \sum_{i=1}^k \alpha_i p(x | \mu_i, \Sigma_i)pM(x)=i=1kαip(xμi,Σi),其中αi\alpha_iαi为混合系数(∑αi=1\sum \alpha_i = 1αi=1),p(x∣μi,Σi)p(x | \mu_i, \Sigma_i)p(xμi,Σi)为第iii个高斯分布(均值μi\mu_iμi,协方差Σi\Sigma_iΣi)。
  • 求解方法(EM算法)
    1. 初始化参数{αi,μi,Σi}\{\alpha_i, \mu_i, \Sigma_i\}{αi,μi,Σi}
    2. 迭代(E步→M步):
      • E步:计算样本xjx_jxj属于第iii个成分的后验概率γji=αip(xj∣μi,Σi)∑l=1kαlp(xj∣μl,Σl)\gamma_{ji} = \frac{\alpha_i p(x_j | \mu_i, \Sigma_i)}{\sum_{l=1}^k \alpha_l p(x_j | \mu_l, \Sigma_l)}γji=l=1kαlp(xjμl,Σl)αip(xjμi,Σi)
      • M步:更新参数αi=1m∑jγji\alpha_i = \frac{1}{m} \sum_j \gamma_{ji}αi=m1jγjiμi=∑jγjixj∑jγji\mu_i = \frac{\sum_j \gamma_{ji} x_j}{\sum_j \gamma_{ji}}μi=jγjijγjixjΣi=∑jγji(xj−μi)(xj−μi)T∑jγji\Sigma_i = \frac{\sum_j \gamma_{ji}(x_j - \mu_i)(x_j - \mu_i)^T}{\sum_j \gamma_{ji}}Σi=jγjijγji(xjμi)(xjμi)T
    3. 终止:似然函数收敛。
  • 特点:灵活拟合复杂分布,可输出样本属于各簇的概率,但计算复杂度高。

五、层次聚类(树形结构聚类)

层次聚类通过逐层合并或拆分簇,形成树形聚类结构,分为自底向上(聚合)和自顶向下(分拆)策略。
在这里插入图片描述

(一)AGNES算法(自底向上聚合)
  • 核心思想:初始将每个样本视为一个簇,迭代合并距离最近的两个簇,直至达到预设簇数kkk
  • 簇距离度量
    • 最小距离:dmin(Ci,Cj)=minx∈Ci,z∈Cjdist(x,z)d_{min}(C_i, C_j) = min_{x \in C_i, z \in C_j} dist(x, z)dmin(Ci,Cj)=minxCi,zCjdist(x,z)
    • 最大距离:dmax(Ci,Cj)=maxx∈Ci,z∈Cjdist(x,z)d_{max}(C_i, C_j) = max_{x \in C_i, z \in C_j} dist(x, z)dmax(Ci,Cj)=maxxCi,zCjdist(x,z)
    • 平均距离:davg(Ci,Cj)=1∣Ci∣∣Cj∣∑x∈Ci∑z∈Cjdist(x,z)d_{avg}(C_i, C_j) = \frac{1}{|C_i||C_j|} \sum_{x \in C_i} \sum_{z \in C_j} dist(x, z)davg(Ci,Cj)=Ci∣∣Cj1xCizCjdist(x,z)
  • 特点:生成层次化簇结构,便于可视化,但计算复杂度高(O(m2logm)O(m^2 log m)O(m2logm)),对噪声敏感。

总结

聚类通过无监督方式揭示数据内在结构,性能可通过外部或内部指标评价。距离计算需根据属性类型选择(如连续属性用欧氏距离,无序属性用VDM)。原型聚类(k均值、高斯混合)高效且适用于大规模数据;层次聚类(AGNES)生成树形结构,适合探索数据层次关系。实际应用中需根据数据分布和任务需求选择算法。

上一章:机器学习08——集成学习
下一章:机器学习10——降维与度量学习
机器学习实战项目:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/98663.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/98663.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/98663.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决 Docker 构建中 Python 依赖冲突的完整指南

问题背景 在基于 registry.cn-shenzhen.aliyuncs.com/all_dev/dev:invoice-base 镜像构建 Docker 容器时,我们遇到了一个常见的 Python 依赖管理问题: ERROR: ResolutionImpossible: for help visit https://pip.pypa.io/en/latest/topics/dependency-resolution/#dealing-…

光子计算芯片实战:Lightmatter Passage互连架构性能评测

点击 “AladdinEdu,同学们用得起的【H卡】算力平台”,H卡级别算力,80G大显存,按量计费,灵活弹性,顶级配置,学生更享专属优惠。 摘要 随着人工智能计算需求呈指数级增长,传统电子计算…

基于树莓派与Jetson Nano集群的实验边缘设备上视觉语言模型(VLMs)的性能评估与实践探索

概述 2018年,TensorFlow Lite团队的Pete Warden曾提出:“机器学习的未来在于微型化”。如今,随着人工智能向高性能视觉强大的视觉语言模型(Vision-language models, VLMs)发展,对高性能计算资源的需求急剧…

华为Ai岗机考20250903完整真题

华为Ai岗机考20250903 华为自26届秋招(2025年起)对AI岗位机考进行了改革,考试题型调整为20道选择题(15道单选(6分)5道不定项选择(12分))2道编程题(150300)。 题目核心围绕人工智能技术(如Transformer架构…

k8s+jenkins+harbor构建Devops平台

一、环境准备1、准备一主一从k8s机器,(设备好可以一主多从也行)2、一台harbor仓库机器(dockerhub访问不了)二、安装nfs服务1、在k8s机器上yum install nfs-utils -y systemctl start nfs systemctl enable nfs2、创建共…

为什么 socket.io 客户端在浏览器能连上,但在 Node.js 中报错 transport close?

网罗开发(小红书、快手、视频号同名)大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方…

人才教育导向下:老年生活照护实训室助力提升学生老年照护服务能力

一、老年生活照护实训室建设背景与意义 (一)适应老龄化社会需求 我国老龄化程度持续加深,老年照护服务人才缺口不断扩大。培养专业照护人才成为当务之急,职业教育需承担重要责任。点击获取实训室建设方案 (二&…

我在嘉顺达蓝海的安全坚守

作为嘉顺达蓝海的资深安全员,每天清晨 6 点,我都会站在物流基地的入口处,看着一队队橙色的嘉顺达蓝海危险品运输车整齐列队。那抹醒目的橙色,不仅是嘉顺达蓝海的标志,更是我和 200 多名同事坚守 12 年的安全承诺。今天…

云原生监控系统 Prometheus大总结 20250909

本章内容如下: Prometheus 介绍 Prometheus 部署和配置 Node Exporter 采集数据 Pushgateway 采集数据 PromQL 查询语言 Grafana 图形化展示 Prometheus 标签管理 Prometheus 告警机制 Prometheus 服务发现 各种Exporter 高级功能 Prometheus 实现容器监控 Promethe…

EPNN:基于嵌入式偏振神经网络的水下成像增强方法(未做完)

Enhancing Underwater Imaging for Robot through Embedded Polarization Neural Network EPNN:基于嵌入式偏振神经网络的水下成像增强方法 1 论文核心概念 本文提出了一种名为嵌入式偏振神经网络(Embedded Polarization Neural Network, EPNN) 的方法,用于显著提升水下…

基于单片机冷藏运输车环境检测/水产品运输环境检测设计

传送门 👉👉👉👉单片机作品题目速选一览表🚀 👉👉👉👉单片机作品题目功能速览🚀 🔥更多文章戳👉小新单片机-CSDN博客&#x1f68…

基于STM32设计的人体健康监护系统(华为云IOT)_280

文章目录 一、前言 1.1 项目介绍 【1】项目开发背景 【2】设计实现的功能 【3】项目硬件模块组成 【4】设计意义 【5】国内外研究现状 【6】摘要 1.2 设计思路 1.3 系统功能总结 1.4 开发工具的选择 【1】设备端开发 【2】上位机开发 1.5 参考文献 1.6 系统框架图 1.7 系统原理…

先买实现烦过

#include <myhead.h> #define ERR_LOG(msg)do{perror(msg);printf("%d %s %s\n",__LINE__,__func__,__FILE__);}while(0) //定义TFTP默认端口号&#xff08;69&#xff09;和数据包大小&#xff08;516字节&#xff09; #define PORT 69 #define N 516 …

ACD智能分配:轮流分配和排序上限分配的设置

在客户服务中&#xff0c;合理的对话分配是提高服务质量的关键。一洽客服系统针对不同业务场景,提供灵活的客服分配策略,帮助企业实现智能化的客户服务管理&#xff0c;今天我们了解一下对话的轮流分配、排序上限分配、排序优先分配的设置一、轮流分配按照客服登录系统的先后顺…

【postMan / apifox 文件上传】

apifox 需要提供相关插件 失败的请求 { “timestamp”: “2025-09-10T14:44:24.91900:00”, “status”: 500, “error”: “Internal Server Error”, “path”: “/student/import” } 错误&#xff1a;Post “http://localhost:8080/student/import”: dial tcp [::1]:8080:…

视频加水印,推荐使用运营大管家-视频批量加水印软件

运营大管家-视频批量加水印软件介绍“运营大管家-视频批量加水印”是一款功能强大的桌面应用程序&#xff0c;旨在帮助用户高效地为多个视频批量添加自定义水印。无论是品牌宣传、版权保护&#xff0c;还是个性化展示&#xff0c;本软件都能提供灵活的文字水印和图片水印选项&a…

基于 Dockerfile 构建镜像

1.准备构建上下文[roothost1 ~]# mkdir dockerfile-test && cd dockerfile-test [roothost1 dockerfile-test]# touch nginx.repo [roothost1 dockerfile-test]# touch Dockerfile [roothost1 dockerfile-test]# vi nginx.repo [roothost1 dockerfile-test]# cat nginx…

[Dify实战]插件编写- 如何让插件直接输出文件对象(支持 TXT、Excel 等)

在大多数 Dify 插件开发中,我们习惯于让插件返回结构化文本、字典或 JSON 数据。但随着应用场景拓展,例如翻译文件、生成报表、处理数据分析结果等,我们需要让插件支持“直接返回文件对象”给用户,而不是让用户复制粘贴文本再手动保存。 本文将基于实战经验,详细介绍如何…

Thread类的基本用法(上)

一、线程创建方法&#xff08;5种&#xff09;1.继承Thread类class MyThread extends Thread {Overridepublic void run() {System.out.println("MyThread is running");try {Thread.sleep(1000);} catch (InterruptedException e) {throw new RuntimeException(e);}…

ARM内存映射与启动地址重映射机制解析

目录 内存映射 1. 核心概念&#xff1a;内存映射 (Memory Map) 2. 启动过程与地址重映射 (Remapping) 关键&#xff1a;启动引脚 (Boot Pins) 这个过程可以类比&#xff1a; 3. 为什么设计成这样&#xff1f; 4. 一图流总结 图解说明&#xff1a; 核心要点&#xff1a;…