上一章：机器学习09——聚类
下一章：机器学习11——特征选择与稀疏学习
机器学习实战项目：【从 0 到 1 落地】机器学习实操项目目录：覆盖入门到进阶，大学生就业 / 竞赛必备

k近邻学习是一种简单的监督学习方法，核心是基于距离度量找到测试样本的近邻，通过近邻的标签预测结果。

核心步骤：
1. 确定训练样本和距离度量（如欧氏距离）；
2. 对测试样本，找到训练集中距离最近的k个样本；
3. 分类任务用“投票法”（取k个样本中最多的类别），回归任务用“平均法”（取k个样本输出的平均值）；也可基于距离加权，近邻权重更大。
关键参数：
- k值：k=1时为最近邻分类器，k越大模型越简单（欠拟合风险增加），k越小越容易过拟合；
- 距离度量：不同度量会导致“近邻”定义不同，直接影响分类结果。
学习类型：
- “懒惰学习”：训练阶段仅存储样本，无训练开销，测试时才计算距离（如kNN）；
- “急切学习”：训练阶段即学习模型（如SVM、决策树）。
性能分析：
最近邻分类器（k=1）的泛化错误率不超过贝叶斯最优分类器错误率的两倍，前提是训练样本“密采样”（任意测试样本附近都有训练样本）。

高维空间中样本稀疏、距离计算困难的问题称为“维数灾难”，降维是主要解决途径，核心是将高维数据映射到低维子空间。

高维数据往往隐含低维结构（如三维空间中的曲面可嵌入二维），即“低维嵌入”，因此可通过数学变换提取有效低维特征。

MDS通过保持样本间的距离，将高维数据映射到低维空间，核心是“距离不变性”。

给定高维空间的距离矩阵 $D$ （ $dist_{ij}$ 为样本 $x_i$ 与 $x_j$ 的距离），找到低维空间表示 $z_i$ ，使 $z_i - z_j\| = dist_{ij}$ 。

计算内积矩阵 $B$ ：通过距离公式推导 $bij=−12(distij2−disti.2−dist.j2+dist..2)b_{ij} = -\frac{1}{2}(dist_{ij}^2 - dist_{i.}^2 - dist_{.j}^2 + dist_{..}^2)$ ，其中 $dist_{i.}^2$ 为第i行距离的均值；
特征值分解：对 $B$ 做特征值分解，取前 $d^{'}$ 个最大特征值及对应特征向量；
低维映射：低维坐标为 $\tilde{\Lambda}^{1/2} \tilde{V}^T$ （ $Λ~\tilde{\Lambda}$ 为前 $d^{'}$ 个特征值构成的对角矩阵， $V~\tilde{V}$ 为对应特征向量）。

实际应用中可放宽“严格距离不变”，仅需低维距离尽可能接近原始距离，以实现有效降维。

PCA是最常用的线性降维方法，通过寻找数据的主成分（最大方差方向），保留主要信息。

交叉验证：在不同 $d^{'}$ 下训练模型（如kNN），选择性能最优值；
重构阈值：选取最小 $d^{'}$ 使 $∑i=1d′λi∑i=1dλi≥t\frac{\sum_{i=1}^{d'}\lambda_i}{\sum_{i=1}^d \lambda_i} \geq t$ （ $t$ 为阈值，如0.95）。

流形学习假设高维数据分布在低维流形上（局部与欧氏空间同胚），通过局部距离推广到全局，实现非线性降维。

适合可视化（降维至2D/3D），但计算复杂度高， scalability较差。

度量学习直接学习合适的距离度量，替代欧氏距离，提升近邻学习等任务的性能。

加权欧氏距离：为不同属性分配权重 $w_i$ ， $dist^2 = (x_i - x_j)^T W (x_i - x_j)$ （ $W$ 为对角矩阵， $W_{ii}=w_i$ ）；
马氏距离：用半正定矩阵 $M$ 建模属性相关性， $dist^2 = (x_i - x_j)^T M (x_i - x_j)$ ， $M$ 为度量矩阵。