一、分类的定义

已知:一组数据(训练集) (X, Y)

例如:

x:数据特征/属性(如收入)

y:类别标记(是否有借款)

任务:

学习一个模型,利用每一条记录的特征x去预测它对应的类别y

即:输入未标记的数据(含特征x),预测数据的类别y每一条记录表示为 (x, y)

如何建立分类与预测模型?

一般流程:有监督学习

通常包括两个阶段:模型训练模型预测

分类预测的准确性

二、规则方法

基于规则的分类器(Rule-based Classifier)就是使用一组 if-then 的模式来进行分类

例如:

(胎生= 否) ˄ (飞行动物= 是) → 鸟类

(胎生= 是) ˄ (体温= 恒温) → 哺乳类

三、决策树

对数据进行处理,利用归纳算法生成可读的规则

模型以树状形式呈现出来

非叶节点:一个属性上的测试,每个分枝代表该测试的输出

叶节点:存放一个类标记

规则:从根节点到叶节点的一条属性取值路径

基本的决策树学习过程,可以归纳为以下三个步骤:

  1. 特征选择:选取对于训练数据有着较强区分能力的特征
  2. 生成决策树:基于选定的特征,逐步生成完整的决策树
  3. 决策树剪枝:简化部分枝干,避免过拟合因素影响

特征选择

选取对于训练数据有着较强区分能力的特征

常用特征选择准则

        信息增益(熵)

        信息增益率

        基尼指数

信息熵:计算数据的不确定性

此时:表示某个节点t (即某个特征)的信息不确定性

例子:

 信息增益: 按某个特征划分之后,数据不确定性降低的程度

 信息增益率(Gain ratio): 综合考虑划分结果信息增益划分数量的信息

选择最大的信息增益率对应的特征m

信息增益率有矫枉过正的危险

采用信息增益率的情况下,往往倾向于选择取值较少的特征

当特征的取值较少时,IV较小,因此惩罚项相对较小

基尼指数

目的在于表示样本集合中一个随机样本被分错的概率

基尼指数越低,表明被分错的概率越低,相应的信息纯度也就越高

计算特征节点t的基尼指数 :

例子:

当一个特征节点p 分裂成 k 个子节点(如两个子节点)

选择准则:选择最大的GINI 对应的特征m

分类错误

计算单个节点错误

决策树——剪枝

当利用训练集生成决策树之后,树的很多分枝属于噪音或者会对分类准确率造成负面影响,因此需要对决策树进行剪枝来提高决策树的分类能力。

先剪枝

        通过提前停止生成分枝对决策树进行剪枝,可以利用信息增益等测度来对分枝生成情况(优劣)进行评估

后剪枝

        首先完全地构建一个决策树,然后删除不必要的结点和对应的分枝

四、K近邻算法

对数据空间内的样本,可提出相似样本假设表征上相近的样本应该属于同一个类别

K近邻思想:用K个最相似样本的类别来预测未知样本的类别(投票方法)

核心问题:距离度量、K的取值

距离度量:

基本方法:欧式距离

离散0/1向量,则可使用汉明距离(Hamming)代替

除此之外,对于文本而言(如采用TF-IDF),可使用余弦相似度

K的取值:

K近邻分类的效果同样严重依赖于 K 的取值(即邻居的数量)

K太小,容易受噪声干扰;

K太大,可能导致错误涵盖其他类别样本

五、支持向量机(SVM)


内容有限,具体内容可以去西瓜书了解,带大家过一下

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/84318.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/84318.shtml
英文地址,请注明出处:http://en.pswp.cn/web/84318.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计模式-接口隔离原则(Interface Segregation Principle, ISP)

接口隔离原则(Interface Segregation Principle, ISP) 核心思想:客户端不应被迫依赖它们不使用的接口方法。 目标:通过拆分臃肿的接口为更小、更具体的接口,减少不必要的依赖,提高系统的灵活性和可维护性。…

超融合:系统工程还是软件工程? 从H3C UIS9.0看超融合的技术本质

在数字化转型的浪潮中,超融合基础架构(Hyper-Converged Infrastructure, HCI)凭借其简化部署、弹性扩展和高效运维的优势,成为企业IT基础设施升级的重要选择。 然而,关于超融合究竟属于系统工程还是软件工程的讨论一直…

青少年编程与数学 01-012 通用应用软件简介 01 Microsoft Office办公软件

青少年编程与数学 01-012 通用应用软件简介 01 Microsoft Office办公软件 **一、Microsoft Office办公软件概述****二、发展过程**(一)早期起源(二)技术演进 **三、主要用途或功能**(一)文字处理&#xff0…

vivado IP综合选项

在 Vivado 中,生成 IP 文件时的 Synthesis Options 提供了两种主要的综合模式:Global 和 Out of Context per IP。这两种模式的主要区别如下: 1. Global Synthesis(全局综合) 定义:在这种模式下&#xff…

零信任一招解决智慧校园的远程访问、数据防泄露、安全运维难题

随着数字化转型持续深入,“智慧校园”已成为高校发展的必经之路。从统一门户、一卡通到教务系统、选课系统,各类应用极大地便利了师生的工作与学习。 然而,便捷的背后也隐藏着一系列安全挑战。为了满足师生校外访问的需求,许多应…

web布局08

flex-basis 是 Flexbox 布局模块中 flex 属性的另一个子属性,在前面的课程中我们深度剖析了浏览器是如何计算 Flex 项目尺寸的,或者说 Flexbox 是如何工作的。对于众多 Web 开发者而言,在 CSS 中都习惯于使用像 width 、height 、min-* 和 ma…

在 Docker 27.3.1 中安装 PostgreSQL 16 的实践

前言:为什么在 Docker 中部署 PostgreSQL? 在云原生时代,容器化部署已成为生产环境的首选方案。通过 Docker 部署 PostgreSQL 具有以下显著优势: 环境一致性:消除“在我机器上能运行”的问题快速部署:秒级…

日志混乱与数据不一致问题实战排查:工具协同调试记录(含克魔使用点)

日志调试、状态验证和数据一致性排查,是iOS开发中最费时间、最易出错的工作之一。尤其是在模块之间异步通信频繁、本地缓存与远程状态需保持同步时,如果缺乏一套合适的流程与工具,开发人员极容易陷入“盲查状态”。 在一次跨部门联合开发的A…

Redis底层数据结构与内部实现

目录 一、RedisDB结构 1、RedisDB在Redis实例中的位置 2、RedisDB结构与核心组件 二、RedisObject结构 1、核心数据结构 1.1 简单动态字符串 (Simple Dynamic String - SDS) 1.2 字典 (Dict / Hash Table) 1.3 双端链表 (Linked List) 1.4 跳跃表 (Skip List) 1.5 压…

【项目实训】【项目博客#07】HarmonySmartCodingSystem系统前端开发技术详解(5.12-6.15)

【项目实训】【项目博客#07】HarmonySmartCodingSystem系统前端开发技术详解(5.12-6.15) 一、项目概述与目标 HarmonySmartCodingSystem是一个面向HarmonyOS开发者的智能编码辅助平台,旨在通过自然语言交互简化开发流程,提供智能…

系统性能优化-2 CPU

系统性能优化-2 CPU 其实除了 CPU 的频率,多核架构以及多 CPU 架构对系统运行的性能也是很大影响的,那么该如何充分利用 CPU 呢? CPU 架构 首先介绍一下当前主流的 CPU 架构,现在的系统基本都是多 CPU,一个 CPU 处理…

Docker Pull 相关配置指南

在Docker环境中,docker pull命令用于从Docker镜像仓库拉取镜像。为了确保Docker镜像能够快速、稳定地拉取,配置 docker pull相关的设置是非常重要的。本文将详细介绍如何配置Docker以优化 docker pull操作,涵盖镜像源配置、登录私有仓库、网络…

Python的Matplotlib库:从入门到精通的数据可视化实战指南

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 持续学习,不断…

CentOS查日志

在 CentOS 系统中,查看日志是系统维护和故障排查的重要技能。以下是常用的日志查看方法和工具: 1. 基本日志位置 CentOS 使用systemd管理服务,主要日志存储在: /var/log/messages:系统主日志/var/log/secure&#x…

Linux运维新人自用笔记(用虚拟机Ubuntu部署lamp环境,搭建WordPress博客)

内容全为个人理解和自查资料梳理,欢迎各位大神指点! 每天学习较为零散。 day20 一、./configure 脚本命令 ./configure 是 Unix/Linux 系统中用于配置软件源代码的脚本命令,通常用于为后续的 make 和 make install 准备编译环境。 选项作…

JetBrains 2025 全家桶 包含 IDEA、WebStorm、DataGrip、Pycharm、CLion、GoLand、PhpStorm

JetBrains 2025 全家桶 11合1 包含:IDEA、WebStorm、DataSpell、DataGrip、Pycharm、RustRover、CLion、Rider、PhpStorm、RubyMine、GoLand。 原文地址:JetBrains 2025 全家桶 11合1 含 IDEA、PyCharm、DataGrip、WebStrom、GoLand、CLion、PhpStorm、D…

【一手实测】字节豆包 1.6 + Trae + 火山 MCP + FaaS:AI云原生 Agent 开发部署全流程体验!

原创 Aitrainee AI进修生 2025年06月13日 16:42 湖南 标题已修改 缘起 —— 火山引擎在 2025 原动力大会上,也端出了自家的豆包大模型:Doubao-Seed-1.6 系列。 这三兄弟都支持文本、图片、视频输入,都带着 256K 的长上下文。 Doubao-Seed-…

Vulkan学习笔记8—顶点输入描述与顶点缓冲

一、着色器代码更新及构建时自动编译着色器脚本 用内存中的顶点缓冲区替换顶点着色器中硬编码的顶点数据 之前的顶点着色器: #version 450layout(location 0) out vec3 fragColor;// 顶点数据硬编码 vec2 positions[3] vec2[](vec2(0.0, -0.5),vec2(0.5, 0.5),…

Day04_数据结构(栈链栈循环队列)

01.栈 main.c #include "stack.h" int main() { stack_p S(stack_p)create_stack(); //1.入栈 …

PyTorch 的 CUDA GPU 支持 · 安装五条铁律(最新版 2025 修订)(适用于所有用户)

相关参考资料(往期博客): 是否需要预先安装 CUDA Toolkit?——按使用场景分级推荐及进阶说明-CSDN博客 太方便,WIN系统CUDA12.4下使用conda便捷管理虚拟环境中的不同版本的CUDA、cuDNN、PyTorch-CSDN博客 好消息&#…