目录

集成学习介绍

1. 核心思想

2. 为什么有效?

3. 主要流派与方法

A. 并行方法:Bagging (Bootstrap Aggregating)

B. 串行方法:Boosting

C. 堆叠法:Stacking

代码示例

Bagging 的代表 —— 随机森林 (Random Forest)


集成学习介绍

1. 核心思想

集成学习是一种机器学习范式,其核心思想非常直观:“三个臭皮匠,顶个诸葛亮”。它通过构建并结合多个基学习器(Base Learners) 来完成学习任务,而不是只使用一个单一的模型。

通过将多个性能可能仅优于随机猜测的弱学习器(Weak Learners) 组合起来,集成方法往往能够形成一个强学习器(Strong Learner),获得比任何单一模型都更加显著优越的泛化性能。

2. 为什么有效?

集成学习有效的根本原因在于它降低了模型的方差(Variance)偏差(Bias),或同时降低两者,从而避免了过拟合或欠拟合。

  1. 统计角度: 假设一个分类任务,25个基分类器每个的错误率为 ε = 0.35。如果使用简单投票法集成,并且假设分类器之间相互独立,那么集成分类器出错的概率(即超过一半的分类器都出错)会远低于 0.35。这大大提高了准确性。
  2. 计算角度: 很多学习算法(如决策树)对数据微小变动非常敏感,容易陷入局部最优。通过多次运行并平均结果,集成方法可以平滑掉这种不稳定性,找到一个更稳定、更鲁棒的解决方案。
  3. 表示角度: 真实世界的假设空间可能非常庞大,单个模型可能无法找到最优解。集成多个模型相当于扩展了假设空间,从而有可能逼近那个真正的、更优的解。

3. 主要流派与方法

集成学习方法主要分为两大类:

A. 并行方法:Bagging (Bootstrap Aggregating)
  • 核心思想:通过自助采样法(Bootstrap Sampling) 从原始数据集中随机有放回地抽取多个子集,并行地训练多个基学习器,然后通过投票(分类) 或平均(回归) 的方式结合预测结果。
  • 目标:主要旨在降低方差,特别适用于那些容易过拟合的复杂模型(如深度决策树)。
  • 典型算法
    • 随机森林(Random Forest): Bagging 的升级版和代表作。它在构建每棵决策树时,不仅对样本进行随机采样,还对特征进行随机采样。这种“双重随机性”进一步增强了模型的多样性和泛化能力,有效防止过拟合。
B. 串行方法:Boosting
  • 核心思想:基学习器是串行训练的。后续的模型会更加关注先前模型预测错误的样本,通过不断调整样本的权重或拟合残差,逐步提升整体性能。
  • 目标:主要旨在降低偏差,将多个弱学习器提升为一个强学习器。
  • 典型算法
    • AdaBoost (Adaptive Boosting): 通过逐步提高被错误分类样本的权重,迫使后续的弱分类器重点关注这些难分的样本。
    • 梯度提升(Gradient Boosting): 不再是调整样本权重,而是通过拟合损失函数的负梯度(即残差) 来迭代地构建模型。每一个新模型都是在学习之前所有模型加总的残差。
    • XGBoost, LightGBM, CatBoost: 这些都是 Gradient Boosting 的高效、高性能实现,在各类数据科学竞赛中占据统治地位。它们通过优化计算速度、处理缺失值、防止过拟合等方面进行了大量改进。
C. 堆叠法:Stacking
  • 核心思想:训练多个异质的基学习器(第一层模型),然后不是简单投票,而是训练一个元学习器(Meta-Learner,第二层模型) 来整合基学习器的预测结果,以得到最终的输出。
  • 目标:结合不同模型的优势,形成更强大的预测能力。

代码示例

Bagging 的代表 —— 随机森林 (Random Forest)

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay
from sklearn.tree import DecisionTreeClassifier# 1. 加载数据(威斯康星州乳腺癌数据集)
data = load_breast_cancer()
X, y = data.data, data.target
feature_names = data.feature_names# 2. 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)print("数据集形状:", X.shape)  # (569, 30)
print("特征示例:\n", feature_names[:5])  # ['mean radius' 'mean texture' 'mean perimeter' 'mean area' 'mean smoothness']
print("目标标签: 0-恶性(Malignant), 1-良性(Benign)")  # 0-恶性(Malignant), 1-良性(Benign)# 3. 训练一个单一的决策树(作为对比基准)
single_tree = DecisionTreeClassifier(random_state=42)
single_tree.fit(X_train, y_train)
y_pred_tree = single_tree.predict(X_test)
acc_tree = accuracy_score(y_test, y_pred_tree)
print(f"\n单一决策树准确率: {acc_tree:.4f}")  # 0.9474# 4. 训练随机森林集成模型
# n_estimators: 森林中树的数量
# max_features: 寻找最佳分割时考虑的最大特征数,'sqrt'是常用值,即总特征数的平方根
# random_state: 确保结果可重现
rf_clf = RandomForestClassifier(n_estimators=100, max_features='sqrt', random_state=42)
rf_clf.fit(X_train, y_train)# 5. 在测试集上进行预测并评估
y_pred_rf = rf_clf.predict(X_test)
acc_rf = accuracy_score(y_test, y_pred_rf)
print(f"随机森林准确率: {acc_rf:.4f}")  # 0.9649# 6. 可视化特征重要性(集成模型的强大附加功能)
importances = rf_clf.feature_importances_
indices = np.argsort(importances)[::-1] # 按重要性降序排列索引plt.figure(figsize=(10, 6))
plt.title("Random Forest - Feature Importances")
plt.bar(range(X_train.shape[1]), importances[indices], align='center')
plt.xticks(range(X_train.shape[1]), [feature_names[i] for i in indices], rotation=90)
plt.tight_layout()
plt.show()# 7. 绘制混淆矩阵
cm = confusion_matrix(y_test, y_pred_rf, labels=rf_clf.classes_)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['Malignant', 'Benign'])
disp.plot(cmap='Blues')
plt.title("Random Forest Confusion Matrix")
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/97986.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/97986.shtml
英文地址,请注明出处:http://en.pswp.cn/web/97986.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vscode实现第三方包的使用,cmake结合vcpkg(跨平台)

要使用cmake和vcpkg组织一个完整的现代cpp项目,一般来说需要三个文件vcpkg.json描述第三方依赖项//vcpkg.json {"dependencies": ["fmt"] }//安装,在vcpkg.json目录执行 vcpkg installCMakePresets.json定义项目的本质属性(What&…

DevExpress中Word Processing Document API学习记录

文章目录1 文档结构划分2 文档操作基础2.1 Positions and Ranges2.2 Secitions2.3 Paragraphs2.4 Tables2.5 Lists2.6 Hyperlinks and Bookmarks2.7 Comments2.8 Headers and Footers2.9 Shapes and Pictures2.10 Watermarks2.11 Charts2.12 OLE Objects2.13 ActiveX Controls2…

Roo Code 的差异_快速编辑功能

什么是差异编辑? 简单来说,差异编辑就像是一位细心的装修师傅:他不会把整个房子拆掉重盖,而是精准地只修补需要改动的部分。Roo Code 的这项功能默认开启,它通过比对代码差异(diff)来实施修改&a…

【Axure高保真原型】标签树分类查询案例

今天和大家分享标签树分类查询案例的原型模版,效果包括: 树形分类——点击左侧树形里的箭头,可以展开或收起子级选项; 查询表格——点击标签树里的选项,如果是末级选项,可以筛选右侧表格用户标签&#xf…

容器化部署项目05

一、工作原理 镜像:容器的模板,包括容器运行时所需的数据 容器:运行中的进程,依赖镜像运行,镜像的具现化 镜像你可以把它看成Python中的类,而容器可以看做是类的实例化对象。 一个类可以有多个对象&#xf…

微信小程序 工作日历 周计划日报 修改等提报和状态展示功能,支持h5,Android ,ios,基于uniapp,适配vue2和vue3

Work-calendar 介绍 (底部附链接) 基于uni-calendar做的定制化开发,主要功能为工作日历展示和提报组件 ​ 1.支持周计划日报状态展示且可配置 ​ 2.支持农历展示配置,回到当日,月份切换 ​ 3.日历,周报…

openharmony 鸿蒙 下 利用蓝牙API(a2dp模块-高级音频,ble模块-低功耗蓝牙等)完成对蓝牙音响的控制(蓝牙广播)

1.首先是登录页面(利用webapi 和本地数据存储完成登陆操作) 2.添加设备(利用ble.startBLEScan 和 ble.on("BLEDeviceFind", onReceiveEvent);完成蓝牙扫描与显示) 3.蓝牙ble连接(利用ble.createGattClientDe…

17、逻辑回归与分类评估 - 从连续到离散的智能判断

学习目标:理解分类问题的本质和评估方法,掌握逻辑回归的数学原理和概率解释,学会二分类和多分类问题的处理方法,熟练使用分类评估指标,理解过拟合和正则化的基本概念。 > 从第16章到第17章:从预测数值到判断类别 在第16章中,我们学习了线性回归,解决的是预测连续数…

自动化脚本的核心引擎

自动化脚本作为现代软件开发与运维的重要工具,其核心引擎承担着解析指令、调度任务和执行逻辑的关键职能。这种引擎本质上是一个轻量级的运行时环境,通过预定义的规则集将人类可读的脚本语言转化为机器可执行的原子操作。在持续集成/持续交付&#xff08…

【Vue2 ✨】Vue2 入门之旅 · 进阶篇(九):Vue2 性能优化

在前几篇文章中,我们学习了 Vuex 的内部机制以及 Vue Router 的工作原理。本篇将深入探讨 Vue2 性能优化,帮助你掌握在开发中提升 Vue 应用性能的方法和技巧。 目录 性能优化的意义响应式系统优化虚拟 DOM 与渲染优化组件懒加载与按需渲染事件与计算属性…

【题解】B2600 【深基1.例2】简单的分苹果

题目描述 这里有 101010 个苹果,小 A 拿走了 222 个,Uim 拿走了 444 个,八尾勇拿走剩下的所有的苹果。我们想知道: 小A 和 Uim 两个人一共拿走多少苹果?八尾勇能拿走多少苹果? 现在需要编写一个程序&#x…

中小企业 4G 专网部署:性能与成本的最佳平衡

在数字化转型的浪潮中,中小企业同样需要安全、稳定和高效的通信网络。然而,传统专网的高成本和复杂部署往往成为阻碍。IPLOOK 提供的4G轻量级核心网与专网解决方案,正是帮助中小企业在性能与成本之间找到最佳平衡的关键。 中小企业的网络挑…

LeetCode每日一题,20250914

元音拼写检查器 思路 精确匹配 用 HashSet 保存原始单词&#xff0c;查询时直接判断是否存在。 大小写忽略匹配 用 HashMap<String, String> 保存 小写单词 -> 第一次出现的原始单词。用 putIfAbsent&#xff0c;确保只记录第一次出现的单词。 元音模糊匹配 把单词…

i2s_record_play

这章主要讲述i2s 1&#xff1a;环境及配件 esp32c3 esp32s3 idf5.4.1 INMP441 MAX98357A 都使用dma 2&#xff1a;eps32c3 测试 只有1个i2s 只能一边录 完 再播放 &#xff0c;内存太小&#xff0c;这里用 flash 存audio里 只说能 录音 能播放 &#xff0c;效果不好&#xff0…

Spring Boot 3 + EasyExcel 文件导入导出实现

SpringBoot集成EasyExcel 3.x&#xff1a;高效实现Excel数据的优雅导入与导出 在现代企业应用中&#xff0c;Excel作为数据交换的重要工具&#xff0c;几乎无处不在。如何高效且优雅地实现Excel数据的导入与导出&#xff0c;是每个开发者都需要面对的问题。EasyExcel是阿里巴巴…

Ruby编程实践:20个实用练习

1、编写一个程序,计算一年有多少小时。 以下是两种实现方式的代码: 方式一: puts 24*365方式二: puts 24*365 puts "(or #{24*366} on a leap year)"2、编写一个程序,计算十年中有多少分钟。 以下两种实现方式: 简单计算(未考虑闰年数量差异): ru…

逻辑回归(二):从原理到实战 - 训练、评估与应用指南

引言&#xff1a; 上期我们讲了什么是逻辑回归&#xff0c;了解了它如何利用Sigmoid函数将线性回归的输出转化为概率&#xff0c;并通过最大似然估计来寻找最佳参数。今天&#xff0c;我们将继续这段旅程&#xff0c;学习如何训练这个 模型、如何评估它的表现&#xff0c;以及如…

9.8C++作业

思维导图#include <iostream> #include <vector> #include <fstream> using namespace std;class Stu {friend ofstream &operator<<(ofstream &ofs,const Stu &stu); private:string name;string id;int age;double score; public:Stu(){…

Linux内存管理章节十六:非均匀的内存访问:深入Linux NUMA架构内存管理

引言 在传统的SMP&#xff08;对称多处理&#xff09;系统中&#xff0c;所有CPU核心通过一条共享总线访问同一块内存&#xff0c;所有内存访问延迟是均匀的&#xff08;UMA&#xff09;。然而&#xff0c;随着CPU核心数量的增加&#xff0c;共享总线成为了巨大的性能和 scalab…

【论文翻译】Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement

0. 摘要Traditional methods for reasoning segmentation rely on supervised fine-tuning with categorical labels and simple descriptions, limiting its out-of-domain generalization and lacking explicit reasoning processes. To address these limitations, we propo…