专栏:机器学习

个人主页:云端筑梦狮

一.数据集读取方法（常用功能用熟即可不用背下来）

以例子代表需要的知识点和方法。

1. 导入必要的库

from sklearn.datasets import load_iris
import numpy as np

load_iris()：用于加载鸢尾花数据集的函数。（其他的数据集也按照类似的方式进行导入）

iris_data = load_iris()
print(iris_data)
print(type(iris_data))

load_iris()返回一个类似字典的Bunch对象，包含数据、标签、特征名等信息。
print(iris_data)会输出数据集的完整内容，包括 DESCR（描述信息）、data（特征数据）、target（标签数据）等。
type(iris_data)显示其类型

查看特征数据和标签数据

print(iris_data.data[:10])  # 查看前10条样本的特征值
print(iris_data.target[:10])  # 查看前10条样本的标签值
print(iris_data.feature_names)  # 查看特征名称

iris_data.data：是一个形状为(150, 4)的二维数组，包含 150 个样本的 4 个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）。
iris_data.target：是一个长度为 150 的一维数组，包含样本的分类标签（0、1、2 分别代表山鸢尾、变色鸢尾、维吉尼亚鸢尾）。
iris_data.feature_names：列出了四个特征的名称。

使用`return_X_y=True`直接获取特征和标签

x, y = load_iris(return_X_y=True)
print(x[:10])  # 查看前10条样本的特征值
print(y[:10])  # 查看前10条样本的标签值

return_X_y=True参数使load_iris()直接返回两个数组：x（特征数据）和y（标签数据），适合快速进行模型训练。

以 DataFrame 格式加载数据集

iris_data = load_iris(as_frame=True)
print(iris_data.frame)

as_frame=True参数使load_iris()返回一个包含 DataFrame 对象。
iris_data.frame是一个 Pandas DataFrame，包含所有样本的特征和标签，方便进行数据探索和分析。

大家一定要在自己的机器上面运行一下这个代码来熟悉一下

二.数据集的切分方法

from sklearn.model_selection import train_test_split
import numpy as np

train_test_split：用于将数据集拆分为训练集和测试集的函数。

a = np.arange(12).reshape(6, 2)
print("特征矩阵a:\n", a)b = np.array([0, 1, 0, 1, 0, 1])

特征矩阵 a：一个 6 行 2 列的数组，模拟 6 个样本的二维特征
标签数组 b

第一次划分

X_train, X_test, y_train, y_test = train_test_split(a, b, random_state=42)

random_state=42：固定随机种子，确保每次运行代码时划分结果相同（便于复现）。未指定test_size时，默认测试集占比为 25%（即 6 个样本中，测试集为 1.5 个样本，向上取整为 2 个样本）。

训练集标签: [1 0 0 1]  # 包含2个0和2个1
测试集标签: [0 1]      # 包含1个0和1个1

第二次划分：使用 `stratify` 参数

X_train_strat, X_test_strat, y_train_strat, y_test_strat = train_test_split(a, b, random_state=42, stratify=b
)

stratify=b：强制划分后的训练集和测试集的类别比例与原始数据 完全一致。
- 原始数据中标签0和1各占 3 个（比例 1:1），因此：
  - 训练集：4 个样本，其中 0 和 1 各 2 个。
  - 测试集：2 个样本，其中 0 和 1 各 1 个。

训练集标签: [0 1 1 0]  # 严格包含2个0和2个1
测试集标签: [0 1]      # 严格包含1个0和1个1

第三次划分：修改 `random_state`

X_train_new, X_test_new, y_train_new, y_test_new = train_test_split(a, b, random_state=24)

random_state=24：使用不同的随机种子，生成与之前不同的划分结果。

训练集标签: [0 1 1 0]  # 包含2个0和2个1
测试集标签: [0 1]      # 包含1个0和1个1

`stratify` 参数的核心作用

当处理 类别不平衡数据（如 100 个样本中 90 个正例、10 个反例）时，stratify 参数尤为重要：

不使用 stratify：随机划分可能导致测试集中只有正例（如 25 个样本全为正例），无法评估模型对反例的预测能力。
使用 stratify：强制测试集中保持 90% 正例、10% 反例的比例，确保模型评估的公平性。

常见参数扩展

test_size=0.3：指定测试集占比为 30%。
shuffle=False：禁用数据打乱（按原始顺序划分）。
random_state：控制划分的随机性，确保结果可复现。
stratify：保证训练集和测试集的类别比例与原始数据一致，适用于类别不平衡场景。
默认划分比例为 75% 训练集 + 25% 测试集，可通过test_size调整。

一.数据集读取方法（常用功能用熟即可不用背下来）

1. 导入必要的库

查看特征数据和标签数据

使用`return_X_y=True`直接获取特征和标签

以 DataFrame 格式加载数据集

二.数据集的切分方法

第一次划分

第二次划分：使用 `stratify` 参数

第三次划分：修改 `random_state`

`stratify` 参数的核心作用

常见参数扩展

相关文章

SQL语句四大分类详解：DDL、DML、DQL、DCL

如何将Word里每页的行数设置成50行

纯前端本地文件管理器（VSCode风格）(浏览器对本地文件增删改查)

windows安装wsl、Ubuntu、docker desktop

华为云Flexus+DeepSeek征文｜云端智能加持：华为云ModelArts Studio提升Chat2DB的AI数据库管理效能

微信小程序封装loading 修改

Windows环境下Docker容器化的安装与设置指南

0 数学习题本

USB服务器的5个核心价值

基于vue3+ByteMD快速搭建自己的Markdown文档编辑器

“AI大语言模型”助力大气科学：ERA5再分析数据、WRF处理、遥感降水、CMIP6未来气候、天气晴雨预测的完整方法论等

STM32给FPGA的外挂FLASH进行升级

Python 数据分析与可视化 Day 9 - 缺失值与异常值处理技巧

概述-1-数据库的相关概念

可视化大屏展示

服务器被入侵的常见迹象有哪些？

日本生活：日语语言学校-日语作文-沟通无国界（5）-题目：我的一天

前端领域的技术热点与深度解析

【unity游戏开发——网络】网络游戏通信方案——强联网游戏（Socket长连接）、弱联网游戏（HTTP短连接）

Java-60 深入浅出分布式服务Paxos 算法优化如何保证Paxos算法的活性

一.数据集读取方法（常用功能用熟即可不用背下来）

1. 导入必要的库

查看特征数据和标签数据

使用return_X_y=True直接获取特征和标签

以 DataFrame 格式加载数据集

二.数据集的切分方法

第一次划分

第二次划分：使用 stratify 参数

第三次划分：修改 random_state

stratify 参数的核心作用

常见参数扩展

相关文章

使用`return_X_y=True`直接获取特征和标签

第二次划分：使用 `stratify` 参数

第三次划分：修改 `random_state`

`stratify` 参数的核心作用