上一章：机器学习08——集成学习
下一章：机器学习10——降维与度量学习
机器学习实战项目：【从 0 到 1 落地】机器学习实操项目目录：覆盖入门到进阶，大学生就业 / 竞赛必备

聚类是无监督学习中最核心的任务之一，目标是将无标记样本集划分为若干不相交的“簇”（cluster），以揭示数据内在的分布结构。

给定样本集 $D = \{x_1, x_2, ..., x_m\}$ ，每个样本 $x_i$ 为n维特征向量；
聚类算法将 $D$ 划分为 $k$ 个簇 ${C_1, C_2, ..., C_k\}$ ，满足：
- 簇间不相交： $Cl′∩l′≠lCl=∅C_{l'} \cap_{l' \neq l} C_l = \emptyset$ ；
- 覆盖所有样本： $\cup_{l=1}^k C_l$ ；
簇标记向量 $λ={λ1;λ2;...;λm}\lambda = \{\lambda_1; \lambda_2; ...; \lambda_m\}$ 表示样本所属簇（ $λj∈{1,2,...,k}\lambda_j \in \{1, 2, ..., k\}$ ，即 $xj∈Cλjx_j \in C_{\lambda_j}$ ）。

性能度量用于评价聚类结果的优劣，核心是“簇内相似度高、簇间相似度低”，分为外部指标和内部指标。

定义：将聚类结果与“参考模型”（如人工标注的簇划分）比较，通过样本对的匹配情况计算。
关键参数：
- $a$ ：同簇且参考模型中同簇的样本对数量；
- $b$ ：同簇但参考模型中不同簇的样本对数量；
- $c$ ：不同簇但参考模型中同簇的样本对数量；
- $d$ ：不同簇且参考模型中不同簇的样本对数量。
常用指标：
- Jaccard系数（JC）： $\frac{a}{a + b + c}$ ；
- FM指数（FMI）： $\sqrt{\frac{a}{a + b} \cdot \frac{a}{a + c}}$ ；
- Rand指数（RI）： $\frac{2(a + d)}{m(m - 1)}$ 。

定义：基于聚类结果自身的统计特性（如距离、密度）评价，无需参考模型。
关键参数：
- $a vg (C)$ ：簇 $C$ 内样本平均距离；
- $d iam (C)$ ：簇 $C$ 内样本最大距离；
- $d_{min}(C_i, C_j)$ ：簇 $C_i$ 与 $C_j$ 的最近样本距离；
- $d_{cen}(C_i, C_j)$ ：簇 $C_i$ 与 $C_j$ 的中心距离。
常用指标：
- DB指数（DBI）： $\frac{1}{k} \sum_{i=1}^k max_{j \neq i} \left( \frac{avg(C_i) + avg(C_j)}{d_{cen}(\mu_i, \mu_j)} \right)$ （值越小越好）；
- Dunn指数（DI）： $min_{1 \leq i \leq k} \left\{ min_{j \neq i} \left( \frac{d_{min}(C_i, C_j)}{max_{1 \leq l \leq k} diam(C_l)} \right) \right\}$ （值越大越好）。

距离度量是聚类的核心，需满足非负性、同一性、对称性和直递性，不同属性类型需采用不同度量方式。

闵可夫斯基距离： $dist(xi,xj)=(∑u=1n∣xiu−xju∣p)1/pdist(x_i, x_j) = \left( \sum_{u=1}^n |x_{iu} - x_{ju}|^p \right)^{1/p}$ ，其中：
- $p = 2$ 为欧氏距离（最常用）；
- $p = 1$ 为曼哈顿距离。

连续属性：直接使用闵可夫斯基距离；
离散属性：
- 有序属性：可转换为连续值后用闵可夫斯基距离；
- 无序属性：用VDM距离：
  $VDMp(a,b)=∑i=1k∣mu,a,imu,a−mu,b,imu,b∣pVDM_p(a, b) = \sum_{i=1}^k \left| \frac{m_{u,a,i}}{m_{u,a}} - \frac{m_{u,b,i}}{m_{u,b}} \right|^p$
  （ $m_{u,a,i}$ 为第 $i$ 簇中属性 $u$ 取 $a$ 的样本数， $m_{u,a}$ 为属性 $u$ 取 $a$ 的总样本数）；
混合属性：结合闵可夫斯基距离和VDM：
$MinkovDMp(xi,xj)=(∑连续属性∣xiu−xju∣p+∑无序属性VDMp(xiu,xju))1/pMinkovDM_p(x_i, x_j) = \left( \sum_{连续属性} |x_{iu} - x_{ju}|^p + \sum_{无序属性} VDM_p(x_{iu}, x_{ju}) \right)^{1/p}$

原型聚类假设聚类结构可通过“原型”（如中心、概率分布）刻画，通过迭代优化原型实现聚类。

核心思想：最小化簇内平方误差 $\sum_{i=1}^k \sum_{x \in C_i} \|x - \mu_i\|_2^2$ （ $μi\mu_i$ 为簇 $C_i$ 的均值向量）。
算法步骤：
1. 随机选择 $k$ 个样本作为初始均值向量 ${μ1,μ2,...,μk}\{\mu_1, \mu_2, ..., \mu_k\}$ ；
2. 迭代：
  - 簇划分：将每个样本划入距离最近的均值向量对应的簇；
  - 更新均值：计算每个簇的新均值向量 $μi=1∣Ci∣∑x∈Cix\mu_i = \frac{1}{|C_i|} \sum_{x \in C_i} x$ ；
3. 终止：均值向量不再更新时停止。
特点：高效易实现，但对初始中心敏感，适用于凸形分布数据。

在这里插入图片描述

模型定义：混合分布 $pM(x)=∑i=1kαip(x∣μi,Σi)p_M(x) = \sum_{i=1}^k \alpha_i p(x | \mu_i, \Sigma_i)$ ，其中 $αi\alpha_i$ 为混合系数（ $∑αi=1\sum \alpha_i = 1$ ）， $\mu_i, \Sigma_i)$ 为第 $i$ 个高斯分布（均值 $μi\mu_i$ ，协方差 $Σi\Sigma_i$ ）。
求解方法（EM算法）：
1. 初始化参数 ${αi,μi,Σi}\{\alpha_i, \mu_i, \Sigma_i\}$ ；
2. 迭代（E步→M步）：
  - E步：计算样本 $x_j$ 属于第 $i$ 个成分的后验概率 $γji=αip(xj∣μi,Σi)∑l=1kαlp(xj∣μl,Σl)\gamma_{ji} = \frac{\alpha_i p(x_j | \mu_i, \Sigma_i)}{\sum_{l=1}^k \alpha_l p(x_j | \mu_l, \Sigma_l)}$ ；
  - M步：更新参数 $αi=1m∑jγji\alpha_i = \frac{1}{m} \sum_j \gamma_{ji}$ ， $μi=∑jγjixj∑jγji\mu_i = \frac{\sum_j \gamma_{ji} x_j}{\sum_j \gamma_{ji}}$ ， $Σi=∑jγji(xj−μi)(xj−μi)T∑jγji\Sigma_i = \frac{\sum_j \gamma_{ji}(x_j - \mu_i)(x_j - \mu_i)^T}{\sum_j \gamma_{ji}}$ ；
3. 终止：似然函数收敛。
特点：灵活拟合复杂分布，可输出样本属于各簇的概率，但计算复杂度高。

层次聚类通过逐层合并或拆分簇，形成树形聚类结构，分为自底向上（聚合）和自顶向下（分拆）策略。
在这里插入图片描述

核心思想：初始将每个样本视为一个簇，迭代合并距离最近的两个簇，直至达到预设簇数 $k$ 。
簇距离度量：
- 最小距离： $dmin(Ci,Cj)=minx∈Ci,z∈Cjdist(x,z)d_{min}(C_i, C_j) = min_{x \in C_i, z \in C_j} dist(x, z)$ ；
- 最大距离： $dmax(Ci,Cj)=maxx∈Ci,z∈Cjdist(x,z)d_{max}(C_i, C_j) = max_{x \in C_i, z \in C_j} dist(x, z)$ ；
- 平均距离： $davg(Ci,Cj)=1∣Ci∣∣Cj∣∑x∈Ci∑z∈Cjdist(x,z)d_{avg}(C_i, C_j) = \frac{1}{|C_i||C_j|} \sum_{x \in C_i} \sum_{z \in C_j} dist(x, z)$ 。
特点：生成层次化簇结构，便于可视化，但计算复杂度高（ $O(m^2 log m)$ ），对噪声敏感。