专栏:机器学习

个人主页:云端筑梦狮

一.数据集读取方法(常用功能用熟即可不用背下来)

以例子代表需要的知识点和方法。

1. 导入必要的库

from sklearn.datasets import load_iris
import numpy as np
  • load_iris():用于加载鸢尾花数据集的函数。(其他的数据集也按照类似的方式进行导入
iris_data = load_iris()
print(iris_data)
print(type(iris_data))
  • load_iris()返回一个类似字典的Bunch对象,包含数据、标签、特征名等信息。
  • print(iris_data)会输出数据集的完整内容,包括 DESCR(描述信息)、data(特征数据)、target(标签数据)等。
  • type(iris_data)显示其类型

查看特征数据和标签数据

print(iris_data.data[:10])  # 查看前10条样本的特征值
print(iris_data.target[:10])  # 查看前10条样本的标签值
print(iris_data.feature_names)  # 查看特征名称
  • iris_data.data:是一个形状为(150, 4)的二维数组,包含 150 个样本的 4 个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度)。
  • iris_data.target:是一个长度为 150 的一维数组,包含样本的分类标签(0、1、2 分别代表山鸢尾、变色鸢尾、维吉尼亚鸢尾)。
  • iris_data.feature_names:列出了四个特征的名称

使用return_X_y=True直接获取特征和标签

x, y = load_iris(return_X_y=True)
print(x[:10])  # 查看前10条样本的特征值
print(y[:10])  # 查看前10条样本的标签值

  • return_X_y=True参数使load_iris()直接返回两个数组:x(特征数据)和y(标签数据),适合快速进行模型训练。

以 DataFrame 格式加载数据集

iris_data = load_iris(as_frame=True)
print(iris_data.frame)

  • as_frame=True参数使load_iris()返回一个包含 DataFrame 对象。
  • iris_data.frame是一个 Pandas DataFrame,包含所有样本的特征和标签,方便进行数据探索和分析。

大家一定要在自己的机器上面运行一下这个代码来熟悉一下

二.数据集的切分方法

from sklearn.model_selection import train_test_split
import numpy as np
  • train_test_split:用于将数据集拆分为训练集和测试集的函数。
a = np.arange(12).reshape(6, 2)
print("特征矩阵a:\n", a)b = np.array([0, 1, 0, 1, 0, 1])
  • 特征矩阵 a:一个 6 行 2 列的数组,模拟 6 个样本的二维特征
  • 标签数组 b

 第一次划分

X_train, X_test, y_train, y_test = train_test_split(a, b, random_state=42)
  • random_state=42:固定随机种子,确保每次运行代码时划分结果相同(便于复现)。未指定test_size时,默认测试集占比为 25%(即 6 个样本中,测试集为 1.5 个样本,向上取整为 2 个样本)。

  • 训练集标签: [1 0 0 1]  # 包含2个0和2个1
    测试集标签: [0 1]      # 包含1个0和1个1
    

 第二次划分:使用 stratify 参数

X_train_strat, X_test_strat, y_train_strat, y_test_strat = train_test_split(a, b, random_state=42, stratify=b
)
  • stratify=b:强制划分后的训练集和测试集的类别比例与原始数据 完全一致

    • 原始数据中标签01各占 3 个(比例 1:1),因此:
      • 训练集:4 个样本,其中 0 和 1 各 2 个。
      • 测试集:2 个样本,其中 0 和 1 各 1 个。
  • 训练集标签: [0 1 1 0]  # 严格包含2个0和2个1
    测试集标签: [0 1]      # 严格包含1个0和1个1
    

 第三次划分:修改 random_state

X_train_new, X_test_new, y_train_new, y_test_new = train_test_split(a, b, random_state=24)
  • random_state=24:使用不同的随机种子,生成与之前不同的划分结果。
  • 训练集标签: [0 1 1 0]  # 包含2个0和2个1
    测试集标签: [0 1]      # 包含1个0和1个1
    

stratify 参数的核心作用

当处理 类别不平衡数据(如 100 个样本中 90 个正例、10 个反例)时,stratify 参数尤为重要:

  • 不使用 stratify:随机划分可能导致测试集中只有正例(如 25 个样本全为正例),无法评估模型对反例的预测能力。
  • 使用 stratify:强制测试集中保持 90% 正例、10% 反例的比例,确保模型评估的公平性。

 常见参数扩展

  • test_size=0.3:指定测试集占比为 30%。
  • shuffle=False:禁用数据打乱(按原始顺序划分)。
  • random_state:控制划分的随机性,确保结果可复现。
  • stratify:保证训练集和测试集的类别比例与原始数据一致,适用于类别不平衡场景。
  • 默认划分比例为 75% 训练集 + 25% 测试集,可通过test_size调整。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/86964.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/86964.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/86964.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL语句四大分类详解:DDL、DML、DQL、DCL

前言 SQL(Structured Query Language)是用于管理和操作关系型数据库的标准语言。无论是开发人员还是数据库管理员,掌握 SQL 是必不可少的技能。 SQL 根据功能的不同,通常被划分为 四大类: ✅ DDL(数据定义…

如何将Word里每页的行数设置成50行

https://www.zhihu.com/question/357856175 本文来自知乎林听晴 第一步:新建一个Word文档 打开“页面布局”,之后点击图片圈起来的小图标,即可出现“页面设置”页面。 ​ ​ 路径:页面设置—文档网络,可以看到默认行…

纯前端本地文件管理器(VSCode风格)(浏览器对本地文件增删改查)

纯前端本地文件管理器(VSCode风格)(浏览器对本地文件增删改查) 简介 本项目为一个纯前端实现的本地文件管理器网页(index.html),可在 Chrome/Edge 浏览器中直接打开,具备类似 VSCode 的本地文件夹操作体验…

windows安装wsl、Ubuntu、docker desktop

以下是Windows安装WSL(Windows Subsystem for Linux)及在Ubuntu中配置使用Docker的完整流程,整合了最新官方方案和常见问题解决方案: 🔧 一、Windows安装WSL(推荐WSL 2) 📍 安装前提…

华为云Flexus+DeepSeek征文|云端智能加持:华为云ModelArts Studio提升Chat2DB的AI数据库管理效能

华为云FlexusDeepSeek征文|云端智能加持:华为云ModelArts Studio提升Chat2DB的AI数据库管理效能 前言一、华为云ModelArts Studio平台介绍1.1 ModelArts Studio介绍1.2 ModelArts Studio主要特点1.3 ModelArts Studio使用场景1.4 ModelArts Studio产品架…

微信小程序封装loading 修改

1. custom-loading.vue <template><view v-if"visible" class"custom-loading-mask" touchmove.stop.prevent><view class"custom-loading-container"><!-- 动态点点 --><text class"loading-text">{…

Windows环境下Docker容器化的安装与设置指南

哈喽&#xff0c;大家好&#xff0c;我是左手python&#xff01; 系统要求与准备工作 在开始安装和配置 Docker 之前&#xff0c;需要确保您的 Windows 系统满足以下要求&#xff1a; 操作系统版本&#xff1a;推荐使用 Windows 10 或更高版本&#xff0c;特别是 64 位版本。对…

0 数学习题本

零 引言 数学错题与好题总结 一 基础阶段 1 高数部分 习题册:武忠祥 660 1️⃣ 函数 极限 连续 2️⃣ 一元微分 3️⃣ 一元积分 4️⃣ 微分方程 5️⃣ 多元微分 6️⃣ 二重积分 7️⃣ 无穷级数 8️⃣ 空间几何 9️⃣ 多元积分 2 线代部分 习题册:汤家凤 1800 1️⃣ 行列式…

USB服务器的5个核心价值

USB服务器&#xff08;USB Server&#xff09;是一款专为企业级环境设计的创新型硬件解决方案&#xff0c;其核心使命在于解决物理USB设备&#xff08;如U盾、加密狗、身份认证Key等&#xff09;在分布式办公、远程协作及复杂IT架构中面临的接入、管理与安全难题。本文以朝天椒…

基于vue3+ByteMD快速搭建自己的Markdown文档编辑器

简介 ByteMD 是一个轻量级、功能丰富的 Markdown 编辑器组件&#xff0c;由稀土掘金&#xff08;juejin.cn&#xff09;团队开发并开源。它采用 Svelte 构建&#xff0c;支持双向编辑&#xff08;所见即所得&#xff09;&#xff0c;并提供了丰富的插件系统。 核心特点 轻量…

“AI大语言模型”助力大气科学:ERA5再分析数据、WRF处理、遥感降水、CMIP6未来气候、天气晴雨预测的完整方法论等

内容覆盖使用GPT处理数据、生成论文摘要、文献综述、技术方法分析等实战案例&#xff0c;将AI技术广泛应用于科研工作。特别关注将GPT与Python结合应用于遥感降水数据处理、ERA5大气再分析数据的统计分析、干旱监测及风能和太阳能资源评估等大气科学关键场景。旨在提升参与者在…

STM32给FPGA的外挂FLASH进行升级

STM32给FPGA的外挂FLASH进行升级 一、电路方案设计二、软件写FLASH三、解决第一次烧录后FPGA无法启动的问题 前言&#xff1a; 一个复杂的嵌入式中&#xff0c;如果对某些实时性要求极高的情况下势必会使用到FPGA来保证&#xff0c;这里面牵扯到给FPGA的程序升级问题&#xff0…

Python 数据分析与可视化 Day 9 - 缺失值与异常值处理技巧

✅ 今日目标 熟练处理数据中的缺失值&#xff08;NaN、None&#xff09;学会识别和处理异常值&#xff08;outliers&#xff09;掌握常用的处理方法&#xff1a;填充、删除、替换、标准差法、箱型图法等为后续机器学习建模打好数据清洗基础 &#x1f4da; 一、缺失值处理&…

概述-1-数据库的相关概念

数据库的相关概念 用户通过SQL操作数据库管理系统&#xff0c;再通过数据库管理系统操作数据库以及数据库中的数据。 数据库 数据库是存储数据的仓库, 数据是有组织的进行存储, DataBase简称&#xff08;DB&#xff09; 数据库管理系统 操纵和管理数据库的大型软件, DataB…

可视化大屏展示

可视化大屏是一种将大量数据进行整合、分析&#xff0c;并以直观、形象的可视化方式展示在大屏幕上的信息展示系统。主要组成部分分为2个&#xff1a;硬件设备、软件系统。 一、大屏价值 1、数据可视化&#xff1a;将复杂的数据转化为直观的图形、图表和地图等&#xff0c;使数…

服务器被入侵的常见迹象有哪些?

&#x1f6a8; 服务器被入侵的常见迹象 &#x1f7e2; 一、系统和资源异常 CPU、内存或网络流量异常飙高 即使没有业务负载&#xff0c;资源长期占满。 磁盘空间突然被写满 可疑大文件或日志暴涨。 系统负载显著升高 uptime、top 显示 load average 异常。 &#x1f7e1;…

日本生活:日语语言学校-日语作文-沟通无国界(5)-题目:我的一天

日本生活&#xff1a;日语语言学校-日语作文-沟通无国界&#xff08;5&#xff09;-题目&#xff1a;我的一天 1-前言2-作文原稿3-作文日语和译本&#xff08;1&#xff09;日文原文&#xff08;2&#xff09;对应中文&#xff08;3&#xff09;对应英文 4-老师评语5-自我感想&…

前端领域的技术热点与深度解析

&#x1f525; 一、框架革新&#xff1a;React、Vue、Svelte 的进化方向 React 19 实验版 Server Components 深化&#xff1a;支持流式渲染与异步状态管理&#xff0c;SSR 性能提升40%。 并发模式优化&#xff1a;减少渲染阻塞&#xff0c;复杂交互场景延迟降低35%。 Vue 3…

【unity游戏开发——网络】网络游戏通信方案——强联网游戏(Socket长连接)、 弱联网游戏(HTTP短连接)

注意&#xff1a;考虑到热更新的内容比较多&#xff0c;我将热更新的内容分开&#xff0c;并全部整合放在【unity游戏开发——网络】专栏里&#xff0c;感兴趣的小伙伴可以前往逐一查看学习。 文章目录 一、联网游戏类型划分二、核心通信协议对比三、开发选择指南专栏推荐完结 …

Java-60 深入浅出 分布式服务Paxos 算法优化 如何保证Paxos算法的活性

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; &#x1f680; AI篇持续更新中&#xff01;&#xff08;长期更新&#xff09; 目前2025年06月16日更新到&#xff1a; AI炼丹日志-29 - 字节…