上一章：机器学习02——模型评估与选择
下一章：机器学习04——决策树
机器学习实战项目：【从 0 到 1 落地】机器学习实操项目目录：覆盖入门到进阶，大学生就业 / 竞赛必备

一般形式：对于包含d个属性的样本 $x=(x_1; x_2; ...; x_d)$ ，线性模型的输出为：
$f(x)=w_1 x_1 + w_2 x_2 + ... + w_d x_d + b$
其中， $w_1, w_2, ..., w_d$ 为属性权重（反映对应属性的重要性），b为偏置项。
向量形式：将权重表示为向量 $w=(w_1; w_2; ...; w_d)$ ，则模型可简化为：
$f(x)=w^T x + b$
（ $w^T$ 为w的转置）。

线性回归旨在学习一个线性模型，以准确预测实值输出标记，核心是通过最小二乘法估计参数。

目标：对于含d个属性的样本 $x_i=(x_{i1}; ...; x_{id})$ ，学习 $f(x_i)=w^T x_i + b$ ，使 $f(xi)≃yif(x_i) \simeq y_i$ ；
矩阵表示：将w和b合并为向量 $w^=(w;b)\hat{w}=(w; b)$ ，数据集表示为矩阵 $X$ （每行含样本属性及常数1），输出为向量 $y=(y_1; ...; y_m)$ ；
参数估计：通过最小二乘法最小化 $(y−Xw^)T(y−Xw^)(y - X\hat{w})^T(y - X\hat{w})$ ，当 $X^T X$ 为满秩矩阵时，闭式解为：
$w^∗=(XTX)−1XTy\hat{w}^* = (X^T X)^{-1} X^T y$
若 $X^T X$ 非满秩（如属性数多于样本数），需通过归纳偏好（如选择最简单解）或正则化处理。

线性回归可通过联系函数扩展到非线性输出场景，形成广义线性模型。

在这里插入图片描述

当输出标记y与线性模型的关系为对数形式时：
$ln⁡y=wTx+b⟹y=ewTx+b\ln y = w^T x + b \implies y = e^{w^T x + b}$
此时模型可拟合指数增长的输出（如人口增长、商品销量）。

广义线性模型定义为：
$y = g^{-1}(w^T x + b)$
其中 $g(⋅)g(\cdot)$ 为联系函数（单调可微函数），作用是将线性模型的输出映射到目标变量的取值空间。对数线性回归是其特例（ $g(⋅)=ln⁡(⋅)g(\cdot)=\ln(\cdot)$ ）。

二分类任务需将线性模型输出 $z=w^T x + b$ 映射到离散标记 $\in \{0,1\}$ ，核心是选择合适的映射函数。

在这里插入图片描述

单位阶跃函数：理想映射函数，但因不连续（在z=0处突变），无法用于参数学习：
$\begin{cases} 0, & z < 0 \\ 0.5, & z = 0 \\ 1, & z > 0 \end{cases}$
对数几率函数（替代函数）：单调可微的Sigmoid函数，可近似单位阶跃函数：
$\frac{1}{1 + e^{-z}} = \frac{1}{1 + e^{-(w^T x + b)}}$
其本质是将线性输出z转换为[0,1]区间的概率（样本为正例的概率）。

核心思想：通过对数几率（正例与反例的相对可能性的对数）建立线性关系：
$ln⁡y1−y=wTx+b\ln \frac{y}{1 - y} = w^T x + b$
（ $y1−y\frac{y}{1 - y}$ 为正例的“优势比”）；
优点：
- 无需假设数据分布；
- 可直接输出类别概率，便于决策；
- 可用梯度下降、牛顿法等数值优化算法求解参数。

在这里插入图片描述

LDA是一种监督学习方法，通过将样本投影到一条直线上，实现类别分离（同类样本投影点接近，异类远离）。

关键变量：
- 类均值向量 $μ0,μ1\mu_0, \mu_1$ （两类样本的中心）；
- 类内散度矩阵 $Sw=∑0+∑1S_w = \sum_0 + \sum_1$ （衡量同类样本的分散程度）；
- 类间散度矩阵 $Sb=(μ0−μ1)(μ0−μ1)TS_b = (\mu_0 - \mu_1)(\mu_0 - \mu_1)^T$ （衡量两类中心的距离）；
优化目标：最大化投影后的“类间距离/类内散度”：
$\frac{w^T S_b w}{w^T S_w w}$
（广义瑞利商，通过拉格朗日乘子法求解）；
最优解： $S_w^{-1}(\mu_0 - \mu_1)$ （投影方向与两类中心差成正比，与类内散度成反比）。

不同线性模型的优化目标与求解方法如下：