web/2025/6/20 22:38:45/文章来源:https://blog.csdn.net/2301_79853895/article/details/148744231

一、分类的定义

已知：一组数据（训练集） (X, Y)

例如：

x：数据特征/属性（如收入）

y：类别标记（是否有借款）

任务:

学习一个模型，利用每一条记录的特征x去预测它对应的类别y

即：输入未标记的数据（含特征x），预测数据的类别y每一条记录表示为 (x, y)

如何建立分类与预测模型？

一般流程：有监督学习

通常包括两个阶段：模型训练、模型预测

分类预测的准确性

二、规则方法

基于规则的分类器（Rule-based Classifier）就是使用一组 if-then 的模式来进行分类

例如：

(胎生= 否) ˄ (飞行动物= 是) → 鸟类

(胎生= 是) ˄ (体温= 恒温) → 哺乳类

三、决策树

对数据进行处理，利用归纳算法生成可读的规则

模型以树状形式呈现出来

非叶节点：一个属性上的测试，每个分枝代表该测试的输出

叶节点：存放一个类标记

规则：从根节点到叶节点的一条属性取值路径

基本的决策树学习过程，可以归纳为以下三个步骤：

特征选择：选取对于训练数据有着较强区分能力的特征
生成决策树：基于选定的特征，逐步生成完整的决策树
决策树剪枝：简化部分枝干，避免过拟合因素影响

特征选择

选取对于训练数据有着较强区分能力的特征

常用特征选择准则

信息增益(熵)

信息增益率

基尼指数

信息熵：计算数据的不确定性

此时：表示某个节点t （即某个特征）的信息不确定性

例子：

信息增益: 按某个特征划分之后，数据不确定性降低的程度

信息增益率(Gain ratio): 综合考虑划分结果信息增益和划分数量的信息

选择最大的信息增益率对应的特征m

信息增益率有矫枉过正的危险

采用信息增益率的情况下，往往倾向于选择取值较少的特征

当特征的取值较少时，IV较小，因此惩罚项相对较小

基尼指数

目的在于表示样本集合中一个随机样本被分错的概率

基尼指数越低，表明被分错的概率越低，相应的信息纯度也就越高

计算特征节点t的基尼指数 :

例子：

当一个特征节点p 分裂成 k 个子节点（如两个子节点）

选择准则：选择最大的GINI 对应的特征m

分类错误

计算单个节点错误

决策树——剪枝

当利用训练集生成决策树之后，树的很多分枝属于噪音或者会对分类准确率造成负面影响，因此需要对决策树进行剪枝来提高决策树的分类能力。

先剪枝

通过提前停止生成分枝对决策树进行剪枝，可以利用信息增益等测度来对分枝生成情况（优劣）进行评估

后剪枝

首先完全地构建一个决策树，然后删除不必要的结点和对应的分枝

四、K近邻算法

对数据空间内的样本，可提出相似样本假设表征上相近的样本应该属于同一个类别

K近邻思想：用K个最相似样本的类别来预测未知样本的类别(投票方法)

核心问题：距离度量、K的取值

距离度量：

基本方法：欧式距离

离散0/1向量，则可使用汉明距离（Hamming）代替

除此之外，对于文本而言（如采用TF-IDF），可使用余弦相似度

K的取值：

K近邻分类的效果同样严重依赖于 K 的取值（即邻居的数量）

K太小，容易受噪声干扰；

K太大，可能导致错误涵盖其他类别样本

五、支持向量机（SVM）

内容有限，具体内容可以去西瓜书了解，带大家过一下

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/web/84318.shtml
繁体地址，请注明出处：http://hk.pswp.cn/web/84318.shtml
英文地址，请注明出处：http://en.pswp.cn/web/84318.shtml

如若内容造成侵权/违法违规/事实不符，请联系英文站点网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

设计模式-接口隔离原则（Interface Segregation Principle, ISP）

设计模式-接口隔离原则（Interface Segregation Principle, ISP）

接口隔离原则（Interface Segregation Principle, ISP） 核心思想：客户端不应被迫依赖它们不使用的接口方法。目标：通过拆分臃肿的接口为更小、更具体的接口，减少不必要的依赖，提高系统的灵活性和可维护性。…

阅读更多...

超融合：系统工程还是软件工程？从H3C UIS9.0看超融合的技术本质

在数字化转型的浪潮中，超融合基础架构（Hyper-Converged Infrastructure, HCI）凭借其简化部署、弹性扩展和高效运维的优势，成为企业IT基础设施升级的重要选择。然而，关于超融合究竟属于系统工程还是软件工程的讨论一直…

阅读更多...

青少年编程与数学 01-012 通用应用软件简介 01 Microsoft Office办公软件

青少年编程与数学 01-012 通用应用软件简介 01 Microsoft Office办公软件

青少年编程与数学 01-012 通用应用软件简介 01 Microsoft Office办公软件 **一、Microsoft Office办公软件概述****二、发展过程**（一）早期起源（二）技术演进 **三、主要用途或功能**（一）文字处理&#xff0…

阅读更多...

vivado IP综合选项

在 Vivado 中，生成 IP 文件时的 Synthesis Options 提供了两种主要的综合模式：Global 和 Out of Context per IP。这两种模式的主要区别如下： 1. Global Synthesis（全局综合） 定义：在这种模式下&#xff…

阅读更多...

零信任一招解决智慧校园的远程访问、数据防泄露、安全运维难题

随着数字化转型持续深入，“智慧校园”已成为高校发展的必经之路。从统一门户、一卡通到教务系统、选课系统，各类应用极大地便利了师生的工作与学习。然而，便捷的背后也隐藏着一系列安全挑战。为了满足师生校外访问的需求，许多应…

阅读更多...

web布局08

flex-basis 是 Flexbox 布局模块中 flex 属性的另一个子属性，在前面的课程中我们深度剖析了浏览器是如何计算 Flex 项目尺寸的，或者说 Flexbox 是如何工作的。对于众多 Web 开发者而言，在 CSS 中都习惯于使用像 width 、height 、min-* 和 ma…

阅读更多...

在 Docker 27.3.1 中安装 PostgreSQL 16 的实践

前言：为什么在 Docker 中部署 PostgreSQL？ 在云原生时代，容器化部署已成为生产环境的首选方案。通过 Docker 部署 PostgreSQL 具有以下显著优势： 环境一致性：消除“在我机器上能运行”的问题快速部署：秒级…

阅读更多...

日志混乱与数据不一致问题实战排查：工具协同调试记录（含克魔使用点）

日志调试、状态验证和数据一致性排查，是iOS开发中最费时间、最易出错的工作之一。尤其是在模块之间异步通信频繁、本地缓存与远程状态需保持同步时，如果缺乏一套合适的流程与工具，开发人员极容易陷入“盲查状态”。在一次跨部门联合开发的A…

阅读更多...

Redis底层数据结构与内部实现

目录一、RedisDB结构 1、RedisDB在Redis实例中的位置 2、RedisDB结构与核心组件二、RedisObject结构 1、核心数据结构 1.1 简单动态字符串 (Simple Dynamic String - SDS) 1.2 字典 (Dict / Hash Table) 1.3 双端链表 (Linked List) 1.4 跳跃表 (Skip List) 1.5 压…

阅读更多...

【项目实训】【项目博客#07】HarmonySmartCodingSystem系统前端开发技术详解（5.12-6.15）

【项目实训】【项目博客#07】HarmonySmartCodingSystem系统前端开发技术详解（5.12-6.15）

【项目实训】【项目博客#07】HarmonySmartCodingSystem系统前端开发技术详解（5.12-6.15） 一、项目概述与目标 HarmonySmartCodingSystem是一个面向HarmonyOS开发者的智能编码辅助平台，旨在通过自然语言交互简化开发流程，提供智能…

阅读更多...

系统性能优化-2 CPU

系统性能优化-2 CPU 其实除了 CPU 的频率，多核架构以及多 CPU 架构对系统运行的性能也是很大影响的，那么该如何充分利用 CPU 呢？ CPU 架构首先介绍一下当前主流的 CPU 架构，现在的系统基本都是多 CPU，一个 CPU 处理…

阅读更多...

Docker Pull 相关配置指南

在Docker环境中，docker pull命令用于从Docker镜像仓库拉取镜像。为了确保Docker镜像能够快速、稳定地拉取，配置 docker pull相关的设置是非常重要的。本文将详细介绍如何配置Docker以优化 docker pull操作，涵盖镜像源配置、登录私有仓库、网络…

阅读更多...

Python的Matplotlib库：从入门到精通的数据可视化实战指南

💝💝💝欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。持续学习，不断…

阅读更多...

CentOS查日志

在 CentOS 系统中，查看日志是系统维护和故障排查的重要技能。以下是常用的日志查看方法和工具： 1. 基本日志位置 CentOS 使用systemd管理服务，主要日志存储在： /var/log/messages：系统主日志/var/log/secure&#x…

阅读更多...

Linux运维新人自用笔记（用虚拟机Ubuntu部署lamp环境，搭建WordPress博客）

Linux运维新人自用笔记（用虚拟机Ubuntu部署lamp环境，搭建WordPress博客）

内容全为个人理解和自查资料梳理，欢迎各位大神指点！ 每天学习较为零散。 day20 一、./configure 脚本命令 ./configure 是 Unix/Linux 系统中用于配置软件源代码的脚本命令，通常用于为后续的 make 和 make install 准备编译环境。选项作…

阅读更多...

JetBrains 2025 全家桶包含 IDEA、WebStorm、DataGrip、Pycharm、CLion、GoLand、PhpStorm

JetBrains 2025 全家桶包含 IDEA、WebStorm、DataGrip、Pycharm、CLion、GoLand、PhpStorm

JetBrains 2025 全家桶 11合1 包含：IDEA、WebStorm、DataSpell、DataGrip、Pycharm、RustRover、CLion、Rider、PhpStorm、RubyMine、GoLand。原文地址：JetBrains 2025 全家桶 11合1 含 IDEA、PyCharm、DataGrip、WebStrom、GoLand、CLion、PhpStorm、D…

阅读更多...

【一手实测】字节豆包 1.6 + Trae + 火山 MCP + FaaS：AI云原生 Agent 开发部署全流程体验！

【一手实测】字节豆包 1.6 + Trae + 火山 MCP + FaaS：AI云原生 Agent 开发部署全流程体验！

原创 Aitrainee AI进修生 2025年06月13日 16:42 湖南标题已修改缘起 —— 火山引擎在 2025 原动力大会上，也端出了自家的豆包大模型：Doubao-Seed-1.6 系列。这三兄弟都支持文本、图片、视频输入，都带着 256K 的长上下文。 Doubao-Seed-…

阅读更多...

Vulkan学习笔记8—顶点输入描述与顶点缓冲

一、着色器代码更新及构建时自动编译着色器脚本用内存中的顶点缓冲区替换顶点着色器中硬编码的顶点数据之前的顶点着色器： #version 450layout(location 0) out vec3 fragColor;// 顶点数据硬编码 vec2 positions[3] vec2[](vec2(0.0, -0.5),vec2(0.5, 0.5),…

阅读更多...

Day04_数据结构(栈链栈循环队列)

01.栈 main.c #include "stack.h" int main() { stack_p S(stack_p)create_stack(); //1.入栈 …

阅读更多...

PyTorch 的 CUDA GPU 支持 · 安装五条铁律（最新版 2025 修订）（适用于所有用户）

PyTorch 的 CUDA GPU 支持 · 安装五条铁律（最新版 2025 修订）（适用于所有用户）

相关参考资料（往期博客）： 是否需要预先安装 CUDA Toolkit？——按使用场景分级推荐及进阶说明-CSDN博客太方便，WIN系统CUDA12.4下使用conda便捷管理虚拟环境中的不同版本的CUDA、cuDNN、PyTorch-CSDN博客好消息&#…

阅读更多...

最新文章