from sklearn.metrics import classification_report, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification# 生成示例分类数据
# n_samples: 样本数量, n_features: 特征数量, n_classes: 类别数量
X, y = make_classification(n_samples=1000,  # 1000个样本n_features=20,   # 20个特征n_classes=2,     # 二分类问题random_state=42  # 随机种子,保证结果可重现
)
print("示例数据:")
print(X, y)# 将数据分为训练集和测试集
# test_size=0.2: 20%数据作为测试集,80%作为训练集
# random_state=42: 固定随机种子,确保每次分割结果相同
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42
)# 创建并训练一个随机森林分类器
# n_estimators: 树的数量, random_state: 随机种子
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)  # 使用训练数据拟合模型# 分类模型评估
y_pred = model.predict(X_test)  # 使用模型对测试集进行预测# 输出分类报告:包含precision(精确率)、recall(召回率)、f1-score和support(支持数)
print("分类报告:")
print(classification_report(y_test, y_pred))# 输出混淆矩阵:展示预测结果与实际结果的对比
print("混淆矩阵:\n", confusion_matrix(y_test, y_pred))
  1. 导入必要的库:

    • classification_report 和 confusion_matrix 用于模型评估
    • train_test_split 用于分割训练集和测试集
    • RandomForestClassifier 是我们使用的分类模型
    • make_classification 用于生成示例数据
  2. 生成示例数据:

    • 使用 make_classification 生成 1000 个样本,每个样本有 20 个特征
    • 这是一个二分类问题(n_classes=2)
    • random_state=42 确保每次运行生成相同的数据,便于结果重现
  3. 分割数据集:

    • 将数据分为训练集(80%)和测试集(20%)
    • 训练集用于模型训练,测试集用于评估模型性能
  4. 创建并训练模型:

    • 使用随机森林分类器,包含 100 棵决策树
    • fit 方法用于训练模型,接收训练数据(X_train)和对应的标签(y_train)
  5. 模型预测与评估:

    • model.predict(X_test) 用训练好的模型对测试集进行预测,得到预测标签 y_pred
    • classification_report 计算并打印分类指标:
      • precision(精确率):预测为正的样本中实际为正的比例
      • recall(召回率):实际为正的样本中被正确预测的比例
      • f1-score:精确率和召回率的调和平均
      • support:每个类别的实际样本数量
      • accuracy(准确率)

        • 含义:所有预测中正确预测的比例
        • 计算公式:(TP + TN) / (TP + TN + FP + FN)
        • 解读:直观反映模型的整体正确率,但在类别不平衡时可能有误导性(例如 99% 样本是正类,模型全预测为正类也能达到 99% 准确率)
      • macro avg(宏平均)

        • 含义:先计算每个类别的指标(精确率、召回率、F1 分数),再取简单平均值(不考虑类别样本数量)
        • 特点:对所有类别一视同仁,无论每个类别的样本数量多少
        • 适用场景:希望平等关注每个类别(尤其是小样本类别)的场景
      • weighted avg(加权平均)

        • 含义:先计算每个类别的指标,再根据每个类别的样本数量(support)进行加权平均
        • 特点:样本数量多的类别对结果影响更大
        • 适用场景:类别不平衡时,更能反映模型在整体数据上的表现

总结:优先看 accuracy 了解整体表现,类别不平衡时,weighted avg 比 macro avg 更有参考价值,关注小类别表现时,需重点看该类别的单独指标而非宏平均

  • confusion_matrix 展示混淆矩阵,直观显示各类别预测正确和错误的数量
    • TP(True Positive):真实为正例,预测也为正例(正确预测)
    • FN(False Negative):真实为正例,预测为负例(漏检)
    • FP(False Positive):真实为负例,预测为正例(误检)
    • TN(True Negative):真实为负例,预测也为负例(正确预测)

   总结:  从混淆矩阵中能获取的关键信息模型的错误类型是漏检(FN)多还是误检(FP)多。类别预测的稳定性,若某一类别的对角线元素(TP/TN)占比低,说明模型对该类的预测效果差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/90725.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/90725.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/90725.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python编程:初入Python魔法世界

一、常量表达式在编程中,常量指的是在程序执行期间其值不会改变的数据项。虽然 Python 并没有专门的语法来定义常量(不像某些其他语言如 Java 中有 final 关键字),但在实践中,我们通常通过约定俗成的方式来表示一个变量…

Android WorkManager 详解:高效管理后台任务

引言在现代移动应用开发中,后台任务处理是一个至关重要的功能。从同步数据到定期备份,从发送通知到处理耗时操作,后台任务无处不在。然而,Android系统对后台任务的限制越来越严格,开发者需要找到既高效又符合系统规范的…

MCU(微控制器)中的高电平与低电平?

MCU(微控制器)中的高电平与低电平? 在数字电路和MCU(微控制器)中,**高电平(High Level)和低电平(Low Level)**是两种基本的逻辑状态,用于表示二进…

前端项目下载发票pdf文件要求改文件名笔记

1、a链接&#xff08;修改失败&#xff0c;存在跨域&#xff09;<el-table-columnalignrightlabel"下载地址"width"200"><template slot-scope"{row}"><a :href"row.dataUrl" download"文件名">下载</…

Kotlin 数据容器 - List(List 概述、创建 List、List 核心特性、List 元素访问、List 遍历)

一、List 概述List 是一个不可变的有序集合&#xff0c;一旦创建就不能修改其内容&#xff0c;即不能添加、删除、更改元素List 提供了丰富的操作函数来处理数据二、创建 List 1、基础创建 通过 listOf 函数创建&#xff08;推荐&#xff09; // 创建一个 List&#xff0c;包含…

HarmonyOS NEXT 系列之规范开发三方共享包

规范开发三方共享包〇、前言一、了解评分规则二、规范开发共享包1、规范开源协议名称写法2、将 oh-package.json5 文件补充完整3、补充 example 目录4、基本的 README 和 CHANGELOG三、ohpm 包的源码隔离特性〇、前言 对于开发者来说&#xff0c;对外发布代码制品&#xff0c;…

[电网备考]计算机组成与原理

计算机系统概述 计算机发展历程 从数据表示: 计算机可以分为数字计算机与模拟计算机 1946 第一台电子数字计算机 ENIAC 在宾夕法尼亚大学诞生,标志进入电子计算机时代时间计算机发展阶段1946-1958电子管计算机时代1958-1964晶体管计算机时代1964-1971集成电路计算机时代1971-至…

8.c语言指针

内存管理C语言中&#xff0c;栈内存&#xff08;局部变量&#xff09;自动分配/释放&#xff0c;静态区&#xff08;全局、静态变量&#xff09;编译时分配&#xff1b;堆内存需手动分配/释放&#xff0c;核心函数有3个&#xff1a;malloc函数原型&#xff1a;void* malloc(siz…

使用GPU训练模型

本文代码详解参考&#xff1a; 模型训练基础流程-CSDN博客 目录 为什么要用GPU训练模型 什么是CUDA 利用GPU训练—方式一(.cuda()) 利用GPU训练—方式二 (.to()) Google Colaboratory 为什么要用GPU训练模型 用 GPU 训练模型的核心原因是GPU 的硬件架构和计算特性&#…

Matlab学习笔记:自定义函数

MATLAB 学习笔记&#xff1a;自定义函数自定义函数是MATLAB编程的基础&#xff0c;它允许你将重复代码封装成可重用的模块&#xff0c;提高代码的可读性和效率。本笔记将覆盖所有重点知识点&#xff0c;包括语法细节、输入输出处理、函数文件管理、错误处理等。我会用自然易懂的…

【数学建模 | Matlab】二维绘图 和 三维绘图

- 第 115 篇 - Date: 2025 - 07 - 23 Author: 郑龙浩&#xff08;仟墨&#xff09; 续写上一篇&#xff0c;如下文章&#xff1a; 【数学建模|Matlab】Matlab「基础知识」和「基础操作」 五 二维绘图 1 举例 % 二维平面绘图&#xff08;扩展至 -2π 到 2π&#xff09; x …

MCP (Model Context Protocol) 与 HTTP API:大模型时代的通信新范式

MCP (Model Context Protocol) 与 HTTP API&#xff1a;大模型时代的通信新范式在数字世界的两端&#xff0c;API 扮演着不可或缺的桥梁角色。我们熟知的 HTTP API 是 Web 互联互通的基石&#xff0c;驱动着无数应用程序的交互。然而&#xff0c;随着大型语言模型&#xff08;L…

CentOS 搭建 Docker 私有镜像仓库

CentOS 搭建 Docker 私有镜像仓库 搭建 Docker 私有镜像仓库能为团队提供高效、安全的镜像管理方案。下面将详细介绍每个步骤的操作细节&#xff0c;其中命令部分均用代码块展示。 一、环境准备 要搭建 Docker 私有镜像仓库&#xff0c;首先得确保服务器环境符合要求&#xff0…

Zookeeper的简单了解

Zookeeper的简单了解 Zookeeper是一个为分布式应用程序提供协调服务的中间件。 主要作用有三点&#xff1a;分布式锁、注册中心、配置管理、。 特点有读写速度快&#xff08;内存存储&#xff09;、有监听机制&#xff08;用于发布订阅&#xff09;、保证了顺序一致性&#xff…

Android Fragment 全解析

在 Android 开发中&#xff0c;Fragment 是构建灵活界面的核心组件 —— 它既能像 “迷你 Activity” 一样包含布局和逻辑&#xff0c;又能灵活地嵌入到不同 Activity 中复用。无论是平板的多面板布局&#xff0c;还是手机的单页切换&#xff0c;Fragment 都能让界面适配更高效…

0-1BFS(双端队列,洛谷P4667 [BalticOI 2011] Switch the Lamp On 电路维修 (Day1)题解)

对于权重为0或1的路径搜索中&#xff0c;使用双端队列可以对最短路问题进行时间复杂度的优化&#xff0c;由于优先队列的O(longn)级别的插入时间&#xff0c;对于双端队列O(1)插入可以将时间复杂度减少至O(M); https://www.luogu.com.cn/problem/P4667 #include<bits/stdc…

基于LNMP架构的分布式个人博客搭建

1.运行环境主机主机名系统服务192.168.75.154Server-WebLinuxWeb192.168.75.155Server-NFS-DNSLinuxNFS/DNS2.基础配置配置主机名&#xff0c;静态IP地址开启防火墙并配置部分开启SElinux并配置服务器之间使用同ntp.aliyun.com进行时间同步服务器之间使用用ntp.aliyun.com进行时…

基于开源AI智能名片链动2+1模式S2B2C商城小程序的人格品牌化实现路径研究

摘要&#xff1a;在数字化消费时代&#xff0c;人格品牌化已成为企业突破同质化竞争的核心策略。本文以开源AI智能名片、链动21模式与S2B2C商城小程序的融合为切入点&#xff0c;构建“技术赋能-关系重构-价值共生”的人格品牌化理论框架。通过分析用户触达、信任裂变与价值沉淀…

设计模式十一:享元模式(Flyweight Pattern)

享元模式是一种结构型设计模式&#xff0c;它通过共享对象来最小化内存使用或计算开销。这种模式适用于大量相似对象的情况&#xff0c;通过共享这些对象的公共部分来减少资源消耗。基本概念享元模式的核心思想是将对象的内在状态&#xff08;不变的部分&#xff09;和外在状态…

Webpack/Vite 终极指南:前端开发的“涡轮增压引擎“

开篇:当你的项目变成"俄罗斯套娃" "我的index.js怎么引入了87个文件?!" —— 这是每个前端开发者第一次面对复杂项目依赖时的真实反应。别担心,今天我要带你认识两位"打包侠":老牌劲旅Webpack和新锐黑马Vite 一、构建工具:前端世界的&qu…