锋哥原创的Scikit-learn Python机器学习视频教程:
2026版 Scikit-learn Python机器学习 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili
课程介绍
本课程主要讲解基于Scikit-learn的Python机器学习知识,包括机器学习概述,特征工程(数据集,特征抽取,特征预处理,特征降维等),分类算法(K-临近算法,朴素贝叶斯算法,决策树等),回归与聚类算法(线性回归,欠拟合,逻辑回归与二分类,K-means算法)等。
Scikit-learn Python机器学习 - Scikit-learn加载数据集
Scikit-learn 数据集 API 概览
Scikit-learn 的数据集接口主要分为三类,对应三种不同的函数:
函数类型 | 前缀 | 说明 | 经典示例 |
---|---|---|---|
加载小型数据集 | load_* | 加载内置的、小型标准数据集,无需下载。 | load_iris() , load_digits() |
下载大型数据集 | fetch_* | 从网络仓库下载更大、更复杂的数据集。 | fetch_california_housing() |
生成人造数据集 | make_* | 根据特定模型生成可控的合成数据集,用于测试。 | make_classification() |
1. 加载小型数据集 (load_*
)
这些函数直接返回一个 Bunch
对象,这是一个类似字典的对象,具有以下重要属性:
-
data
: 特征数据数组(X) -
target
: 标签数组(y) -
feature_names
: 特征名称列表 -
target_names
: 目标标签名称列表 -
DESCR
: 数据集的完整描述 -
filename
: 数据文件的路径
示例:加载鸢尾花 (Iris) 数据集
from sklearn.datasets import load_iris
if __name__ == '__main__':# 加载鸢尾花数据集iris = load_iris()print('鸢尾花数据集:', iris)print('数据集描述:', iris['DESCR'])print('特征名称:', iris.feature_names)print('特征数据值:', iris.data)print('特征数据形状:', iris.data.shape)print('目标名称:', iris.target_names)print('目标值:', iris.target)
数学知识标准差:
标准差(Standard Deviation,SD),是一个统计学中的专有名词,用于描述数据的离散程度的统计量。标准差也被称为标准偏差,或者实验标准差 。一般而言,标准差越小,表明数据越聚集;标准差越大,表明数据越离散。
离散的概念:
离散在数学和计算机科学中主要指不连续、可分离的元素或结构,与连续相对,常见于离散数学、数据处理等领域。