【1】引言

前序学习进程中,对用scikit-learn表达线性回归进行了初步解读。
线性回归能够将因变量yyy表达成由自变量xxx、线性系数矩阵www和截距bbb组成的线性函数式:
y=∑i=1nwi⋅xi+b=wTx+by=\sum_{i=1}^{n}w_{i}\cdot x_{i}+b=w^T{x}+by=i=1nwixi+b=wTx+b实际上很多时候数据之间不一定是理想化的线性关系,所以需要对线性关系式进行修正,这个时候就可以考虑岭回归。

岭回归是修正后的线性回归,相对于普通线性回归,增加了一个参数:均方误差。

【2】线性回归均方误差

对于线性回归,均方误差的计算式子为:
L(w,b)=∑i=1n(yi−yi^)2=∑i=1n(yi−(wTxi+b))2L(w,b)=\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2=\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2L(w,b)=i=1n(yiyi^)2=i=1n(yi(wTxi+b))2在这里,yyy是第i个样本的真实值,y^\hat{y}y^是第i个样本的预测值。
线性回归的均方误差将真实值和预测值作差后求平方和即可。

【3】岭回归均方误差

岭回归相对于线性回归,均方误差的计算式子增加了对参数权重平方和的计算,称之为L2正则化惩罚项:
L(w,b)=∑i=1n(yi−yi^)2+α∑j=1mwj2=∑i=1n(yi−(wTxi+b))2+α∑j=1mwj2L(w,b)=\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2+\alpha\sum_{j=1}^{m}w_{j}^{2}=\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2+\alpha\sum_{j=1}^{m}w_{j}^{2}L(w,b)=i=1n(yiyi^)2+αj=1mwj2=i=1n(yi(wTxi+b))2+αj=1mwj2在这里,yyy是第i个样本的真实值,y^\hat{y}y^是第i个样本的预测值。
新增加的L2正则化惩罚项为α∑j=1mwj2,其中α≥0\alpha\sum_{j=1}^{m}w_{j}^{2},其中\alpha\geq0αj=1mwj2,其中α0

实际上根据上述说明,从线性回归到岭回归主要的变化发生在均方误差的定义上。
岭回归大名鼎鼎,在均方误差项里面增加了一个L2正则化惩罚项。既然可以有L2正则化,显然也可以有L1正则化,这就是Lasso套索回归方。

【4】套索回归Lasso

岭回归相对于普通线性回归,区别在于添加了L2正则化惩罚项,这一变化解决了普通线性回归至少两个问题:多重共线性和过拟合。

套索回归Lasso相对于普通线性回归,添加L1正则化惩罚项,此时的均方误差公式为:
L(w,b)=12n∑i=1n(yi−yi^)2+α∑j=1n∣wj∣=12n∑i=1n(yi−(wTxi+b))2+α∑j=1n∣wj∣L(w,b)=\frac{1}{2n}\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2+\alpha\sum_{j=1}^{n}\left | w_{j} \right |=\frac{1}{2n}\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2+\alpha\sum_{j=1}^{n}\left | w_{j} \right |L(w,b)=2n1i=1n(yiyi^)2+αj=1nwj=2n1i=1n(yi(wTxi+b))2+αj=1nwj
新增加的L1正则化惩罚项为α∑j=1m∣wj∣\alpha\sum_{j=1}^{m}\left | w_{j} \right |αj=1mwj,其中:
α≥0\alpha \geq0α0是L1正则化惩罚项强度,可以控制对后面部分惩罚的力度;
∑j=1n∣wj∣\sum_{j=1}^{n}\left | w_{j}\right |j=1nwj是所有线性系数绝对值的和。
α>0\alpha >0α>0时,随着α\alphaα增加,正则化强度增加,会增强对系数绝对值和的约束,使得w→0w \rightarrow 0w0
α=0\alpha=0α=0,惩罚项不起作用,Lasso回归退回到普通线性回归。

【5】套索回归Lasso的特点

岭回归和线性回归都是线性关系式的推演,但岭回归通过L2正则化惩罚项让线性系数wjw_{j}wj保持在合理且较小的范围,让回归模型更稳健、更准确。
套索回归Lasso会让部分线性系数直接精确约束至0,即自动剔除不重要的特征,是的模型最终只保留少数非零系数特征,这个特性让Lasso非常适合高维数据的降维和变量筛选;

此外L1正则化惩罚项的存在,很显然对线性系数发挥约束作用可以防止线性回归过拟合。
此外应该强调的是,较小的α\alphaα可以保留相对多的特征,特征多可能过拟合,所以使用Lasso回归应对L1正则化惩罚项的系数α\alphaα进行选取尝试,已实现获取最佳效果。

【6】总结

初步学习了套索回归Lasso的基本概念,了解了套索回归在对高维数据降维上的优势和防止数据过拟合应该采取的措施。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/93384.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/93384.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/93384.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

暴雨服务器:以定制化满足算力需求多样化

在数字经济与实体经济深度融合的浪潮下,互联网行业正经历着前所未有的技术变革。大数据分析、云计算服务、人工智能算法等技术的快速演进,推动着企业对于高性能计算基础设施的需求呈现指数级增长。据IDC数据显示,互联网行业已成为全球服务器采…

JavaScript字符串详解

创建字符串: 1.使用字面量(推荐): 这是最常用、最直接的方式。你可以用单引号 ()、双引号 (") 或反引号 () 把文本包起来 let singleQuote 单引号; let doubleQuote "双引号"; let templateLiteral 反引号;2.使用String 构造函数&…

Kiro Preview 应用评测

Kiro应用评测 Kiro 是一个由亚马逊推出的 AI 驱动的智能开发环境,从原型到生产全程陪伴您的开发过程。它将"灵感编程"的流畅性与规范的清晰性相结合,帮助您更快地构建更好的软件。 昨天收到了Kiro的试用邮件,收到邮件后第一时间下载…

Flink2.0学习笔记:Flink服务器搭建与flink作业提交

一,下载flink:Downloads | Apache Flink,解压后放入IDE工作目录:我这里以1.17版本为例 可以看到,flink后期的版本中没有提供window启动脚本:start-cluster.bat 所以这里要通过windows自带的wsl 系统启动它 打开终端依次运行下列命令完成w…

MySQL锁的分类

MySQL锁可以按照多个维度进行分类,下面我用最清晰的方式为你梳理所有分类方式:一、按锁的粒度分类(最常用分类)锁类型作用范围特点适用引擎示例场景表级锁整张表开销小、加锁快,并发度低MyISAM, MEMORY数据迁移、全表统…

电脑上搭建HTTP服务器在局域网内其它客户端无法访问的解决方案

在电脑上开发一套HTTP服务器的程序在调试时,在本机内访问正常,但是在本机外访问就不正常,外部客户端无法访问或无法连接到本机的服务器的问题,这可能涉及网络配置、防火墙、端口转发或服务绑定等问题,在这里提供了解决…

双指针和codetop2(最短路问题BFS)

双指针和codetop21.双指针1.[复写0](https://leetcode.cn/problems/duplicate-zeros/)2.动态规划1.[珠宝的最高价值](https://leetcode.cn/problems/li-wu-de-zui-da-jie-zhi-lcof/description/)2.[解码方法](https://leetcode.cn/problems/decode-ways/)3.[下降路径最小和](ht…

基于K邻近算法(KNN)的数据回归预测模型

一、作品详细简介 1.1附件文件夹程序代码截图 全部完整源代码,请在个人首页置顶文章查看: 学行库小秘_CSDN博客https://blog.csdn.net/weixin_47760707?spm1000.2115.3001.5343 1.2各文件夹说明 1.2.1 main.m主函数文件 该MATLAB代码实现了一个基于…

【123页PPT】化工行业数字化解决方案(附下载方式)

篇幅所限,本文只提供部分资料内容,完整资料请看下面链接 https://download.csdn.net/download/2501_92808859/91654005 资料解读:【123页PPT】化工行业数字化解决方案 详细资料请看本解读文章的最后内容。化工行业作为国民经济的重要支柱之…

c++--文件头注释/doxygen

文件头注释 开源项目: /*** file robot_base.cpp* author Mr.Wu* date 2025-05-28* version 1.0.0* brief Robot basic drive to communicate with controller** copyright Copyright (c) 2025 google.** Licensed under the Apache License, Version 2.…

【教程】笔记本安装FnOS设置合盖息屏不休眠

重装FnOS好几次了,合盖后屏幕关闭但不休眠的问题每次都要网上找参差不齐的教程,麻烦死了,索性记录一下方便以后复制粘贴。 使用root登录 sudo -i修改系统配置文件编辑logind.conf文件: 打开终端,输入以下命令以编辑log…

深入解析 Monkey OCR:本地化、多语言文本识别的利器与实践指南

在信息爆炸的时代,从图片、扫描文档中高效提取结构化文本的需求日益迫切。OCR(光学字符识别)技术成为解决这一问题的核心工具。尽管市面上有 Abbyy FineReader、Adobe Acrobat 等商业巨头,以及 Tesseract、PaddleOCR 等开源方案&a…

动态规划法 - 53. 最大子数组和

什么是动态规划法? 简单说,动态规划(Dynamic Programming,简称 DP) 是一种**「把复杂问题拆解成小问题,通过解决小问题来解决大问题」**的方法。 核心思路有两个: 1.拆分问题:把原问…

STM32CUBEMX配置stm32工程

1.新建工程2.选择芯片3.配置各种片上外设和时钟4.创建工程5.根据文件内容进行修改工程注意:最好根据工程规范来做,因为有时我们需要更改配置并重新生成,如果不按规范来会导致部分代码会被系统清除,在工程中中有很多成对的BEGIN和E…

Day07 缓存商品 购物车

缓存菜品问题说明用户端小程序展示的菜品数据都是通过查询数据库获得,如果用户端访问量比较大,数据库访问压力随之增大。结果:系统响应慢,用户体验差实现思路通过 Redis 来缓存菜品数据,减少数据库查询操作。缓存逻辑分…

Jenkins(集群与流水线配置)

Jenkins(集群与流水线配置) Jenkins集群 集群化构建可以提升构建效率,也可以并发在多台机器上执行构建。 安装前提:内存至少512MB、Java 17 以上、Maven环境、Git环境 配置集群步骤 配置节点菜单新建节点查看节点配置状态 新建完节…

深入剖析ROS参数服务器通信机制 ——共享全局数据的“云端仓库”实现原理

​1. 核心概念:分布式数据共享容器​ ​定位​:ROS参数服务器(Parameter Server)是ROS架构中的全局共享存储系统,相当于机器人的“云端仓库”。 ​作用​: 存储多节点共享的静态配置参数(如机器…

21.AlexNet

虽然LeNet在手写数字识别上取得了不错的结果,但是他在对于更大的数据集效果就十分有限。 一方面,对于更大尺寸的图像效果有限 另一方面,对于更多分类的任务效果有限 自LeNet后的十几年,计算机视觉领域步入寒冬,神经网络…

Shell脚本-条件判断相关参数

一、前言在 Shell 脚本编程中,条件判断 是实现流程控制的核心机制之一。无论是判断文件是否存在、字符串是否相等,还是数值大小比较,都离不开条件判断语句。本文将带你全面掌握 Shell 脚本中与条件判断相关的参数和语法,包括&…

何为“低空经济”?

低空经济(Low-Altitude Economy)是指以1000米以下空域(部分场景可延伸至3000米)为核心,以无人机(UAV)、电动垂直起降飞行器(eVTOL)、直升机、通航飞机等航空器为载体&…