上一章:机器学习10——降维与度量学习
下一章:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备@[TOC]
机器学习实战项目:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备@[TOC]

文章目录

      • 一、特征的基本概念与分类
      • 二、特征选择的意义与方法
        • (一)基本思路
        • (二)常见特征选择方法
      • 三、稀疏学习与字典学习
        • (一)稀疏表示
        • (二)字典学习
      • 总结

一、特征的基本概念与分类

特征是描述物体的属性,根据与学习任务的相关性可分为三类:

  • 相关特征:对当前学习任务有用的属性(如判断“好瓜”时的“根蒂”“纹理”等);
  • 无关特征:与当前学习任务无关的属性(如判断“好瓜”时的“西瓜颜色”);
  • 冗余特征:信息可由其他特征推演出来的属性(如“西瓜重量”和“西瓜体积”可能存在冗余)。

(注:文档暂不深入讨论冗余特征)

二、特征选择的意义与方法

特征选择是从给定特征集合中选出任务相关特征子集,核心是确保不丢失重要特征,目的是减轻维度灾难(在少量属性上构建模型)和降低学习难度(保留关键信息)。

(一)基本思路

特征选择需解决两个问题:子集搜索(生成候选特征子集)和子集评价(判断子集好坏)。

  1. 子集搜索

    • 前向搜索:从空集开始,逐步添加最优特征(每次新增一个能提升评价的特征);
    • 后向搜索:从完整特征集开始,逐步移除最差特征(每次删除一个降低评价的特征);
    • 双向搜索:同时进行前向添加和后向删除,提升搜索效率。
  2. 子集评价
    常用信息熵衡量特征子集的区分能力:

    • 特征子集AAA将数据集DDD划分为VVV个子集DvD^vDv
    • 评价指标为信息增益:Gain(A)=Ent(D)−∑v=1V∣Dv∣∣D∣Ent(Dv)Gain(A) = Ent(D) - \sum_{v=1}^V \frac{|D^v|}{|D|}Ent(D^v)Gain(A)=Ent(D)v=1VDDvEnt(Dv),其中Ent(D)=−∑k=1∣Y∣pklog⁡2pkEnt(D) = -\sum_{k=1}^{|\mathcal{Y}|}p_k\log_2 p_kEnt(D)=k=1Ypklog2pkpkp_kpk为第kkk类样本占比)。
(二)常见特征选择方法
  1. 过滤式选择
    独立于学习器,先对特征进行评分,再根据评分选择特征。典型方法为Relief:

    • 核心思想:为每个特征计算“相关统计量”,衡量其区分同类与异类样本的能力;
    • 关键概念
      • 猜中近邻(near-hit):样本xix_ixi的同类最近邻xi,nhx_{i,nh}xi,nh
      • 猜错近邻(near-miss):样本xix_ixi的异类最近邻xi,nmx_{i,nm}xi,nm
    • 相关统计量计算
      δj=∑i[−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2]\delta^j = \sum_i \left[-diff(x_i^j, x_{i,nh}^j)^2 + diff(x_i^j, x_{i,nm}^j)^2\right]δj=i[diff(xij,xi,nhj)2+diff(xij,xi,nmj)2]
      diffdiffdiff为属性差异度量:离散属性不同取1,相同取0;连续属性取归一化后的绝对差);
    • 特点:计算效率高(时间开销随特征数线性增长),但未考虑学习器特性。
  2. 包裹式选择
    以特定学习器的性能为评价标准,为其“量身定制”特征子集:

    • 优点:直接优化学习器性能,通常比过滤式效果好;
    • 缺点:需多次训练学习器,计算开销大。
  3. 嵌入式选择
    将特征选择嵌入模型训练过程,通过正则化实现特征筛选:

    • L1范数正则化:在损失函数中加入λ∥w∥1\lambda\|w\|_1λw1(如LASSO回归),易产生稀疏解(部分特征权重wj=0w_j=0wj=0),实现特征选择;
    • L2范数正则化(岭回归):加入λ∥w∥22\lambda\|w\|_2^2λw22,权重趋于小值但不稀疏,无法直接筛选特征;
    • 原理:L1正则化的等值线与损失函数等值线的交点常出现在坐标轴上,导致部分权重为0。

三、稀疏学习与字典学习

(一)稀疏表示

指数据矩阵中存在大量零元素(非整行/列零值),优势包括:

  • 存储高效(仅需记录非零元素);
  • 增强模型可解释性(非零特征为关键因素);
  • 适用于文本等天然稀疏数据。
(二)字典学习

通过学习“字典”矩阵BBB,将样本表示为字典的稀疏线性组合(xi=Bαix_i = B\alpha_ixi=Bαiαi\alpha_iαi为稀疏系数)。

  1. 优化目标
    minB,αi∑i=1m∥xi−Bαi∥22+λ∑i=1m∥αi∥1min_{B,\alpha_i} \sum_{i=1}^m \|x_i - B\alpha_i\|_2^2 + \lambda\sum_{i=1}^m \|\alpha_i\|_1minB,αii=1mxiBαi22+λi=1mαi1
    (第一项为重构误差,第二项为稀疏正则化)。

  2. 求解方法(迭代优化)

    • 固定字典BBB:求解稀疏系数αi\alpha_iαi(类似LASSO问题);
    • 固定系数αi\alpha_iαi:更新字典BBB,最小化重构误差∥X−BA∥F2\|X - BA\|_F^2XBAF2XXX为样本矩阵,AAA为系数矩阵);
    • KSVD算法:逐列更新字典,对残差矩阵进行奇异值分解,取最大奇异值对应的向量更新字典列。

总结

特征选择通过筛选相关特征减轻维度灾难,分为过滤式(高效但独立于学习器)、包裹式(针对性强但开销大)、嵌入式(结合正则化,如L1范数)。稀疏学习通过稀疏表示和字典学习,在高效存储和特征提取中发挥重要作用,适用于高维数据处理。

上一章:机器学习10——降维与度量学习
下一章:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备@[TOC]
机器学习实战项目:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备@[TOC]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/95983.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/95983.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/95983.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

整理python快速构建数据可视化前端的Dash库

一.Dash框架# 导入 Dash 相关库 import dash from dash import dcc, html # dcc 是 Dash 核心组件库,html 是 HTML 组件库 from typing import Generic# 创建一个 Dash 应用实例 app dash.Dash(__name__)# 定义应用的布局 app.layout html.Div(children[# 添加一…

RNN循环神经网络(一):基础RNN结构、双向RNN

RNN循环神经网络 什么是循环神经网络? 循环神经网络(Recurrent Neural Network, RNN)是一类专门用于处理序列数据的神经网络架构。与传统的前馈神经网络不同,RNN具有"记忆"能力,能够捕捉数据中的时间依赖关系…

#C语言——刷题攻略:牛客编程入门训练(十):攻克 循环控制(二),轻松拿捏!

🌟菜鸟主页:晨非辰的主页 👀学习专栏:《C语言刷题合集》 💪学习阶段:C语言方向初学者 ⏳名言欣赏:"代码行数决定你的下限,算法思维决定你的上限。" 目录 1. BC82 乘法表…

daily notes[16]

文章目录意大利语单词 **“bello”**一、核心含义二、变形规则:最重要的部分1. 当 “bello” 位于 **名词前面** 时2. 当 “bello” 位于 **名词后面** 或 **动词后面** 时三、用法总结与对比四、其他用法和常见表达references意大利语单词 “bello” 融合了 指示形…

【知识库】计算机二级python操作题(二)

文章目录基本操作题1基本操作题2基本操作题3简单应用题1简单应用题2综合应用题1基本操作题1考生文件夹下存在一个文件PY101.py,请写代码替换横线,不修改其他代码,实现以下功能,随机选择一个手机品牌屏幕输出。 # 请在...处使用一行…

Nginx 服务用户与防盗链配置

目录 Nginx 服务用户与防盗链配置 1. 隐藏版本号 1.1 配置方法 1.2 生效与验证 2. 修改当前程序账号 2.1 操作步骤 3. 缓存时间 3.1 配置方法 3.2 说明 4. 日志分割 4.1 实现方式(脚本自动分割) 5. 连接超时时间 5.1 核心超时指令&#xff0…

域格4G模块通信协议之HTTP(三):下载大文件的两种方式

域格ASR系列模块支持HTTP下载大文件,本文将提供两种方式。一、直接通过URC上报数据基础操作核心指令说明配置说明响应说明应用示例注意点二、HTTP Range分段下载核心指令说明注意点一、直接通过URC上报数据 若文件体积适中,且需要 MCU 即时处理数据&…

Android 图片 OOM 防护机制设计:大图加载、内存复用与多级缓存

1. 为什么图片加载总让 Android 开发抓狂? 图片是 Android 应用中不可或缺的元素,从用户头像到高清壁纸,从商品详情页到动态表情包,图片无处不在。然而,图片加载是内存管理的雷区,稍不留神就可能触发臭名昭著的 OutOfMemoryError(OOM)。为啥图片这么“吃内存”?原因很…

9月9日

TCP 服务器端#include <myhead.h> #define SER_PORT 8888 //服务器端口号 #define SER_IP "192.168.108.179" //服务器IP地址 int main(int argc, const char *argv[]) {//创建一个用于连接的套接字文件描述符int sfd socket(AF_INET, SOCK_STRE…

Docker生产部署

目录 一、准备工作&#xff1a;理解 Docker 与 Spring Boot 的关系 1. Docker 是什么&#xff1f; 2. Spring Boot 为什么适合 Docker&#xff1f; 二、编写Dockerfile 三、配置管理 挂载外部配置文件 四、用 docker-compose 编排多服务 一、准备工作&#xff1a;理解 Do…

ARM 基础(3)

ARM汇编与C语言函数的相互调用及参数传递汇编调用C函数参数传递规则 前4个参数通过寄存器 R0-R3 传递&#xff0c;超出部分从右向左压栈。32位返回值存于 R0&#xff0c;64位整数用 R0 和 R1&#xff0c;浮点数通过 S0/D0 返回。示例&#xff1a;ARM汇编调用C函数.global _star…

OpenCV计算机视觉笔记合集

参考课程&#xff1a; 【黑马程序员 OpenCV入门教程】 [https://www.bilibili.com/video/BV1Fo4y1d7JL] ZZHow(ZZHow1024) 学习路线 基本的图像处理方法&#xff1a;几何变换&#xff0c;形态学变换&#xff0c;图像平滑&#xff0c;直方图操作&#xff0c;模板匹配&#…

Mybatis-12 第三方缓存-EhCache

配置文档 Ehcache配置文件ehcache.xml Java Ehcache缓存的timeToIdleSeconds和timeToLiveSeconds区别 基本介绍 1.EhCache是一个纯Java的缓存框架&#xff0c;具有快速、精干等特点 2.MyBatis有自己默认的二级缓存&#xff08;前面我们已经使用过了&#xff09;&#xff0c;…

元器件--电容器

文章目录一、技术理论  1、电容定义  2、定义式  3、单位换算  4、电容作用  5、电容特性二、组成结构  1、极板&#xff08;电极&#xff09;​​  ​​2、介质&#xff08;绝缘层&#xff09;​​  3、引线&#xff08;电极引出端&#xff09;​​  4、封装…

【Leetcode hot 100】146.LRU缓存

问题链接 146.LRU缓存 问题描述 请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类&#xff1a; LRUCache(int capacity) 以 正整数 作为容量 capacity 初始化 LRU 缓存int get(int key) 如果关键字 key 存在于缓存中&#xff0c;则返回关…

MySQL超大数据量查询与删除优化

引言 在处理TB级数据时&#xff0c;传统SQL操作可能导致性能崩溃。本文揭示MySQL超大数据量场景下的核心优化策略&#xff0c;通过生产环境案例展示如何将亿级数据删除耗时从8小时压缩至8分钟&#xff0c;并附完整监控方案与容灾措施。 深度剖析海量数据操作痛点 1. 传统删除操…

【内存管理】常用的页表映射函数

1、pgd_addr_end 根据当前虚拟地址 addr 和目标结束地址 end&#xff0c;计算当前 PGD 项 能够覆盖的最大虚拟地址范围的结束地址 next。 如果 addr 和 end 跨越多个 PGD 项&#xff08;即 end 超出当前 PGD 项的地址范围&#xff09;&#xff0c;则返回当前 PGD 项的地址边界。…

XR数字融合工作站赋能新能源汽车专业建设的创新路径

XR数字融合工作站作为集PC、VR、MR技术于一体的软硬件集成平台&#xff0c;凭借其多维交互、虚实融合、智能管理等特性&#xff0c;为新能源汽车专业的教学改革与创新提供了全新解决方案。一、教学场景革新&#xff1a;构建沉浸式、互动化学习环境XR数字融合工作站通过多形态拼…

C语言通用链表终章:优雅的收尾 - 清空与销毁

各类资料学习下载合集 ​https://pan.quark.cn/s/8c91ccb5a474​ 经过前面的学习,我们已经从零构建了一个功能强大的通用链表,它能自如地进行节点的插入和删除。我们的“数据火车”已经可以驰骋在内存的世界里。然而,旅途终有终点,当火车完成任务后,如何安全、彻底地让…