一.什么是朴素贝叶斯

1.1 从 “概率” 到 “分类”

二.朴素贝叶斯的数学基础：贝叶斯定理

2.1 贝叶斯定理公式

2.2 从贝叶斯定理到朴素贝叶斯分类

2.3 “朴素” 的关键：特征独立性假设

三、朴素贝叶斯的三种常见类型

3.1 高斯朴素贝叶斯（Gaussian Naive Bayes）

3.2 多项式朴素贝叶斯（Multinomial Naive Bayes）

3.3 伯努利朴素贝叶斯（Bernoulli Naive Bayes）

四、朴素贝叶斯的工作流程

步骤 1：数据准备与预处理

步骤 2：计算先验概率P(C)

步骤 3：计算似然概率P(x_i|C)

步骤 4：预测新样本

五、朴素贝叶斯的优缺点

优点：

缺点：

改进方向：

六、朴素贝叶斯的经典应用场景

1. 文本分类

2. 推荐系统

3. 医疗诊断

4. 欺诈检测

七.案例实训

1.鸢尾花分类

2.数字识别

一.什么是朴素贝叶斯

朴素贝叶斯是一种基于贝叶斯定理和特征独立性假设的分类算法。它的核心思想是：通过已知的 “先验概率”，结合数据特征计算 “后验概率”，最终以 “后验概率” 最大的类别作为预测结果。

1.1 从 “概率” 到 “分类”

生活中充满了概率决策的场景：比如看到乌云密布（特征），我们会判断 “下雨（类别）的概率更高”；收到一封含 “优惠”“点击链接” 的邮件（特征），我们会推测 “这是垃圾邮件（类别）的概率更高”。朴素贝叶斯做的正是类似的事 —— 通过特征推断类别，本质是概率驱动的分类。

它的 “朴素” 体现在对特征的假设上：假设所有特征之间相互独立。这个假设虽然简化了计算，但在实际场景中（比如文本分类）往往能得到不错的结果，这也是它 “朴素却实用” 的原因。

二.朴素贝叶斯的数学基础：贝叶斯定理

2.1 贝叶斯定理公式

贝叶斯定理的数学表达式如下： P(A|B) = P(B|A)P(A)/P(B)

其中：

P(A|B)：后验概率，指在已知 “事件 B 发生” 的条件下，“事件 A 发生” 的概率（这是我们最终要计算的目标）；
P(B|A)：似然概率，指在 “事件 A 发生” 的条件下，“事件 B 发生” 的概率；
P(A)：先验概率，指 “事件 A 发生” 的概率（在没有任何证据时，对 A 的初始信念）；
P(B)：边缘概率，指 “事件 B 发生” 的概率（作为归一化常数，不影响类别判断的相对大小）。

2.2 从贝叶斯定理到朴素贝叶斯分类

在分类问题中，我们需要用特征推测类别。假设输入特征为X=(x_1, x_2, ..., x_n)（比如邮件中的关键词），类别为C（比如 “垃圾邮件” 或 “正常邮件”），则朴素贝叶斯的核心公式可改写为：

P(C∣X)=P(X∣C)/P(C)/p(X)

其中：

P(C|X)：后验概率，即 “已知特征 X 时，属于类别 C 的概率”（我们要最大化的目标）；
P(C)：先验概率，即 “类别 C 在所有数据中出现的概率”（比如垃圾邮件占总邮件的比例）；
P(X|C)：似然概率，即 “在类别 C 中，特征 X 出现的概率”（比如垃圾邮件中出现 “优惠” 关键词的概率）；
(P(X)：边缘概率，对所有类别都相同，计算时可忽略。

2.3 “朴素” 的关键：特征独立性假设

直接计算P(X|C)并不容易，因为特征X可能有多个维度（比如文本有多个关键词）。朴素贝叶斯通过 “特征独立性假设” 简化计算：假设特征(x_1, x_2, ..., x_n)相互独立，则：

P(X|C) = P(x_1|C)P(x_2|C)...P(x_n|C)

即 “联合概率等于边缘概率的乘积”。这个假设大幅降低了计算复杂度，让朴素贝叶斯能高效处理高维数据（比如文本的词向量）。

三、朴素贝叶斯的三种常见类型

根据特征数据的类型不同，朴素贝叶斯衍生出了三种常用模型，分别适用于不同场景：

3.1 高斯朴素贝叶斯（Gaussian Naive Bayes）

适用场景：特征是连续型数据（如身高、体重、鸢尾花的花瓣长度）。 核心思想：假设在每个类别下，特征服从高斯分布（正态分布）。即对于类别C和特征(x_i)，P(x_i|C)服从高斯分布(N(\mu_{C,i}, \sigma^2_{C,i})\)，其中\(\mu\)是均值，\(\sigma^2\)是方差。

计算时，先通过训练数据计算每个类别下各特征的均值和方差，再用高斯概率密度函数计算\(P(x_i|C)\)。

3.2 多项式朴素贝叶斯（Multinomial Naive Bayes）

适用场景：特征是离散计数数据（如文本中词的出现次数、商品的点击次数）。 核心思想：假设特征的分布服从多项式分布。例如在文本分类中，特征是 “词频”，则\(P(x_i|C)\)表示 “在类别C的文档中，第i个词出现的概率”。

为了避免 “零概率问题”（某个词在类别C中从未出现过，导致\(P(x_i|C)=0\)，乘积结果为 0），通常会使用拉普拉斯平滑（Laplace Smoothing），公式为： \(P(x_i|C) = \frac{count(x_i, C) + 1}{count(C) + n}\) 其中\(count(x_i, C)\)是特征\(x_i\)在类别C中的计数，\(count(C)\)是类别C的总计数，n是特征总数。

3.3 伯努利朴素贝叶斯（Bernoulli Naive Bayes）

适用场景：特征是二进制数据（0 或 1，如文本中词是否出现、用户是否点击某个按钮）。 核心思想：假设特征服从伯努利分布（即只有 “出现” 或 “不出现” 两种状态）。例如在文本分类中，特征是 “词是否存在”（1 表示存在，0 表示不存在），则\(P(x_i|C)\)是 “类别C中词i出现的概率”。

它同样会使用拉普拉斯平滑处理零概率问题，且更关注 “特征是否出现” 而非 “出现次数”，适合短文本场景。

四、朴素贝叶斯的工作流程

朴素贝叶斯的训练和预测流程非常简洁，核心是 “统计概率” 和 “计算后验”，具体步骤如下：