1、 机器学习中特征的理解

def: 特征选择和降维

特征选择:原有特征选择出子集 ,不改变原来的特征空间

降维:将原有的特征重组成为包含信息更多的特征, 变了原有的特征空间降维的主要方法

        Principal Component Analysis (主成分分析)

        Singular Value Decomposition (奇异值分解)

特征选择的方法

        Filter 方法 卡方检验、信息增益、相关系数

        Wrapper 方法 其主要思想是:将子集的选择看作是一个搜索寻优问题 ,生成不同的组 ,对组合进行评价 ,再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题 ,这里有很多的优化算法可以解决 ,尤其是一些启发式的优化算法 ,如  GA PSO DE ABC  ,详见“优化算法 ——  人工蜂群算法  (ABC)”,“优化算法  ——  粒子群算法  (PSO)”。

        Embedded 方法 其主要思想是 :在模型既定的情况下学习出对提高模型准确性最好的属性。这句话并不是很好理解 ,其实是讲在确定模型的过程中 ,挑选出那些对模型的训练有重要意义的属性。

        主要方法 :正则化。 岭回归就是在基本线性回归的过程中加入了正则项。

2、机器学习中 ,有哪些特征工程方法?

数据和特征决定了机器学习的上限,  模型和算法只是逼近这个上限

(1)计算每 个特征与相应变量的相关性:  程上常 段有计算 尔逊系数和互信息系数,  尔逊系数只能衡量线性相关性 互信息系数能够很好地度量各种相关性,但是计算相对复杂 些,好在很多toolkit 边都包含了这个 具(如  sklearnMINE 得到相关性之后就可以排序选择特征了;

(2)构建单个特征的模型 ,通过模型的准确性为特征排序 ,借此来选择特征;

(3)通过L1正则项来选择特征: L1正则 法具有稀疏解的特性, 因此天然具备特征选择的特性 ,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有 相关性的特征可能只保留了 个,如果要确定哪个特征重要应再通过L2正则 法交叉检验*;

(4)训练能够对特征打分的预选模型:RandomForestLogistic Regression等都能对模型的特征打分,通过打分获得相关性后再训练最终模型;

(5)通过特征组合后再来选择特征 :如对id户特征最组合来获得较的特征集再来选择特征 ,这种做法在推荐系统和广 告系统中 较常,这也是所谓亿级甚至 十 亿级特征的主要来源 ,原因是 户数据 较稀疏 ,组合特征能够同时兼顾全局模型和个性化模型 ,这个问题有机会可以展开讲。

(6)通过深度学习来进 特征选择: 前这种 段正在随着深度学习的流行而 成为   ,尤其是在计算机视觉领域 ,原因是深度学习具有动学习特征的能 ,这也是深度学unsupervised feature

        learning的原因。从深度学习模型中选择某 神经层的特征后就可以来进 最终模型的训练了。

3、机器学习中的正负样本

        在分类问题中 ,这个问题相对好理解 点,   脸识别中的例,正样本很好理解 ,就是 脸的图 

        负样本的选取就与问题场景相关 ,具体而 言 ,如果你要进 教室中学 脸识别 ,那么负样本就是教室的窗、墙等等 ,也就是  ,不能是与你要研究的问题毫不相关的乱七 糟的场景图,这样的负样本并没有意义。负样本可以根据背景 成,

        有时候不需要寻找额外的负样本。— 般3000-10000的正样本需要5,000,000-100,000,000的负样本来学习,在互 领域 般在 模前将正负 例通过采样的 法调整到3)1-5:1。

4、线性分类器与非线性分类器的区别及优劣

区别:所谓线性分类器即用 — 个超平 将正负样本分离开 ,表达式为   y =wx    。 强调的是平 

        而非 线性的分类界 没有这个限制,可以是曲 ,多个超平的组合等。典型的线性分类器有感知机,LDA逻辑斯特回归, SVM(线性核);

        典型的非 线性分类器有朴素叶斯(有 章说这个本质是线性的,http://dataunion.org/12344.html),kNN,决策树, SVM(  线性核)

优缺点: 1.线性分类器判别简单、易实现、且需要的计算量和存储量 

        为解决比 较复杂的线性不可分样本分类问题 ,提出 线性判别函数。超曲  线性判别函数计算复杂,

        实际应用 上受到较的限制。在线性分类器的基础上, 分段线性分类器可以实现复杂的分类。解决问 较简便的 法是采多个线性分界 将它们分段连接, 分段线性判别划分去逼近分界的超曲 

        如果— 个问题是 线性问题并且它的类边界不能够线性超平 估计得很好 ,那么 线性分类器通常会线性分类器表现得更精准。如果 个问题是线性的 ,那么最好使简单的线性分类器来处理。

5、如何解决过拟合问题

解释过拟合:

        模型在训练集表现好 ,在真实数据表现不好, 即模型的泛化能不够。从另外 方 面 来讲,模型在达到经验损失最的时候 ,模型复杂度较 ,结构险没有达到最优。

解决:

        学习方 法上: 限制机器的学习 ,使机器学习特征时学得不那么彻底, 因此这样就可以降低机器学到局部特征和错误特征的  ,使得识别正确率得到优化.

        数据上 :要防 过拟合 ,做好特征的选取。训练数据的选取也是很关键的, 良好的训练数据本身的局部特征应尽可能少, 噪声也尽可能.

6、L1L2正则的区别,如何选择L1L2正则

L0正则化的值是模型参数中 零参数的个数。

        也就是如果我们使用 L0范数 ,即希望w的 部分元素都是0.  w是稀疏的)所以可以ML中做稀疏编码,特征选择。通过最 化L0范数 ,来寻找最少最优的稀疏特征项。但不幸的是, L0范数的最优化问题是 NP hard问题,  且理论上有证明, L1范数是L0范数的最优凸近似 因此通常使L1范数来代替。

L1正则化表示各个参数绝对值之和。

        L1范数的解通常是稀疏性的 ,倾向于选择数较少的   的值或者数较多的insignificant值。

        L2正则化标识各个参数的平的和的开 值。

        L2范数越小 ,可以使得w的每个元素都很,接近于0 ,但L1范数不同的是他不会让它等于0 是接近于0.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/94938.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/94938.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/94938.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

亚马逊巴西战略升级:物流网络重构背后的生态革新与技术赋能之路

在全球电商版图中,拉美市场正以惊人的增长速度成为新的战略高地,而巴西作为其中的核心市场,凭借庞大的人口基数、高速发展的数字经济以及不断提升的消费能力,吸引着众多电商巨头争相布局。近日,亚马逊宣布将于2025年底…

PS自由变换

自由变换 自由变换用来对图层、选区、路径或像素内容进行灵活的像素调整。可以进行缩放、旋转、扭曲等多种操作。快捷键:CtrlT,操作完成后使用Enter键可以确认变换自由变换过程中如果出现失误,可以按ESC退出;满意可以按enter确定。…

【K8s】整体认识K8s之存储--volume

为什么要用volume?首先。容器崩溃或重启时,所有的数据都会丢失,我们可以把数据保存到容器的外部,比如硬盘nfs,这样,即使容器没了,数据还在;第二就是容器之间是隔离的。我们如果想共享…

flutter工程

安装flutter 在VSCode中安装flutter extension、flutter组件 国内源下载flutter 3.35.2的SDK,安装,官网下载不了 将flutter安装目录加入环境变量中 D:\program\flutter_sdk\flutter\bin 执行 C:\Windows\System32>flutter --version Flutter 3.35.2 •…

C/C++ 高阶数据结构 —— 二叉搜索树(二叉排序树)

​ 🎁个人主页:工藤新一 ​ 🔍系列专栏:C面向对象(类和对象篇) ​ 🌟心中的天空之城,终会照亮我前方的路 ​ 🎉欢迎大家点赞👍评论📝收藏⭐文章…

stm32F4挂载emmc以及重定义printf

1.Cubemx SDIO USART 使用串口输出调试信息 FATFS Clock Configuration 防止堆栈溢出 2.Keil5 新建自定义文件夹及文件 将文件夹添加进工程 新建.c与.h文件,保存到自定义的文件夹,并添加到工程中 bsp_emmc.c #include "bsp_emmc.h" #include…

基于AI的大模型在S2B2C商城小程序中的应用与定价策略自我评估

摘要:本文聚焦电商行业,结合开源AI大模型与AI智能名片S2B2C商城小程序的技术特性,提出基于行业数据挖掘与自我评估的定价策略。通过分析行业价格分布与销量占比,结合商品设计、品牌创意度、商品丰富度及内功等评估指标&#xff0c…

中国移动云电脑一体机-创维LB2004_瑞芯微RK3566_2G+32G_开ADB安装软件教程

中国移动云电脑一体机-创维LB2004_瑞芯微RK3566_2G32G_开ADB安装软件教程简介:中国移动云电脑一体机-创维LB2004,显示器是23.8英寸1920x1080分辨率,安卓盒子配置是瑞芯微RK3566-四核-1.8GHz处理器-2G32G,预装Android11系统。具体操…

普蓝自研AutoTrack-4X导航套件平台适配高校机器人实操应用

在当前高校机器人工程、人工智能、自动化等专业的教学与科研中,师生们常常面临一个核心痛点:缺乏一套 “开箱即用、可深研、能落地” 的自主移动导航平台 —— 要么是纯仿真环境脱离实际硬件,要么是硬件零散需大量时间搭建,要么是…

2025年工会证考试题库及答案

一、单选题1.工会法人资格审查登记机关自收到申请登记表之日起(  )日内对有关申请文件进行审查,对审查合格者,办理登记手续,发放《工会法人资格证书》及其副本和《工会法人法定代表人证书》。A.二十B.十五C.六十D.三十答案:D 解析:第七条基…

【OpenGL】LearnOpenGL学习笔记17 - Cubemap、Skybox、环境映射(反射、折射)

上接:https://blog.csdn.net/weixin_44506615/article/details/150935025?spm1001.2014.3001.5501 完整代码:https://gitee.com/Duo1J/learn-open-gl | https://github.com/Duo1J/LearnOpenGL 一、立方体贴图 (Cubemap) 立方体贴图就是一个包含了6张2…

第十七章 ESP32S3 SW_PWM 实验

本章将介绍使用 ESP32-S3 LED 控制器(LEDC)。 LEDC 主要用于控制 LED,也可产生PWM信号用于其他设备的控制。该控制器有 8 路通道,可以产生独立的波形,驱动 RGB LED 等设备。 LED PWM 控制器可在无需 CPU 干预的情况下自动改变占空比&#xff…

Flink CDC如何保障数据的一致性

Flink CDC如何保障数据的一致性 前言 在大规模流处理中,故障是无可避免的。机器会宕机,网络会抖动。一个可靠的流处理引擎不仅要能高效地处理数据,更要在遇到这些故障时,保证计算结果的正确性。Apache Flink 正是因其强大的容错机…

Spring Boot 定时任务入门

1. 概述 在产品的色彩斑斓的黑的需求中,有存在一类需求,是需要去定时执行的,此时就需要使用到定时任务。例如说,每分钟扫描超时支付的订单,每小时清理一次日志文件,每天统计前一天的数据并生成报表&#x…

学习:uniapp全栈微信小程序vue3后台(6)

26.实现描述评分标签的双向数据绑定 /pages/wallpaper/picadd Array.prototype.splice() splice() 方法就地移除或者替换已存在的元素和/或添加新的元素。 二次确认 展现 确认标签 删除标签 温故知新: 标签: 关闭标签 27.uni-data-select调用云端分类…

Azure Marketplace 和 Microsoft AppSource的区别

微软的商业应用生态中,Azure Marketplace 和 Microsoft AppSource 是微软并行的两个主要“应用市场”(Marketplace),它们共同构成了微软的“商业市场”(Commercial Marketplace)计划,但服务的目…

完整实验命令解析:从集群搭建到负载均衡配置(2)

一、环境准备与基础网络配置1.1 节点角色与网络规划节点角色主机名所属网段IP 地址网关核心功能Web 服务器web110.1.8.0/2410.1.8.1110.1.8.10(后期调整为 10.1.8.20)部署 Nginx/HTTPD,提供 Web 服务Web 服务器web210.1.8.0/2410.1.8.1210.1.…

uniapp H5禁止微信浏览器长按出菜单,只针对图片

一、问题描述 如图:uni-image>img,img {pointer-events: none;-webkit-pointer-events: none;-ms-pointer-events: none;-moz-pointer-events: none; }uni-image::before {content: ;position: absolute;top: 0;bottom: 0;left: 0;right: 0;background: transpa…

【机器学习】 15 Gaussian processes

本章目录 15 Gaussian processes 515 15.1 Introduction 515 15.2 GPs for regression 516 15.2.1 Predictions using noise-free observations 517 15.2.2 Predictions using noisy observations 518 15.2.3 Effect of the kernel parameters 519 15.2.4 Estimating the kern…

Vue加载速度优化,verder.js和element.js加载速度慢解决方法

1. 使用CDN 这里把常用的vue、vuex、elementui、echarts、axios都引入成cdn的方式 1、在index.html引入CDN 找到public/index.html在上方引入下边的cdn。 [!NOTE] 引入script的时候,一定要把vue.js放到最上边,最先引入,不然后边的js加载会…