锋哥原创的Scikit-learn Python机器学习视频教程：

2026版 Scikit-learn Python机器学习视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili

课程介绍

本课程主要讲解基于Scikit-learn的Python机器学习知识，包括机器学习概述，特征工程(数据集，特征抽取，特征预处理，特征降维等)，分类算法(K-临近算法，朴素贝叶斯算法，决策树等)，回归与聚类算法(线性回归，欠拟合，逻辑回归与二分类，K-means算法)等。

Scikit-learn Python机器学习 - Scikit-learn加载数据集

Scikit-learn 数据集 API 概览

Scikit-learn 的数据集接口主要分为三类，对应三种不同的函数：

函数类型	前缀	说明	经典示例
加载小型数据集	`load_*`	加载内置的、小型标准数据集，无需下载。	`load_iris()`, `load_digits()`
下载大型数据集	`fetch_*`	从网络仓库下载更大、更复杂的数据集。	`fetch_california_housing()`
生成人造数据集	`make_*`	根据特定模型生成可控的合成数据集，用于测试。	`make_classification()`

1. 加载小型数据集 (load_*)

这些函数直接返回一个 Bunch 对象，这是一个类似字典的对象，具有以下重要属性：

data: 特征数据数组（X）
target: 标签数组（y）
feature_names: 特征名称列表
target_names: 目标标签名称列表
DESCR: 数据集的完整描述
filename: 数据文件的路径

示例：加载鸢尾花 (Iris) 数据集

from sklearn.datasets import load_iris

if __name__ == '__main__':# 加载鸢尾花数据集iris = load_iris()print('鸢尾花数据集：', iris)print('数据集描述：', iris['DESCR'])print('特征名称：', iris.feature_names)print('特征数据值：', iris.data)print('特征数据形状：', iris.data.shape)print('目标名称：', iris.target_names)print('目标值：', iris.target)

数学知识标准差：

标准差（Standard Deviation，SD），是一个统计学中的专有名词，用于描述数据的离散程度的统计量。标准差也被称为标准偏差，或者实验标准差。一般而言，标准差越小，表明数据越聚集；标准差越大，表明数据越离散。