有监督学习

线性模型

多元线性回归:预测连续的数值(如房价、销量)。

逻辑回归:解决二分类问题(如判断邮件是否是垃圾邮件),输出概率。

非线性模型

决策树:通过一系列if-then规则进行决策,非常直观易懂。
用途:分类和回归。

随机森林:集成学习方法。通过构建多棵决策树并综合它们的結果(如投票或平均),极大地提升了模型的准确性和鲁棒性,不易过拟合。
用途:几乎可用于任何问题,是非常强大的基准模型。

梯度提升机:另一种集成学习方法,如 XGBoost, LightGBM, CatBoost。通过迭代地训练新树来修正前一轮树的错误,性能通常比随机森林更优,是许多数据科学竞赛的“大杀器”。
用途:处理结构化/表格数据的最佳选择之一。

支持向量机

传统图像处理中最好用的算法,目前不用了。

SVM:寻找一个“最大间隔”的超平面来区分不同类别的数据。对于非线性问题,可以使用“核技巧”映射到高维空间进行分离。
用途:尤其在中小规模数据集上表现优异,适用于高维数据(如文本、图像)。

神经网络与深度学习

神经网络:由大量神经元连接构成的模型,可以拟合极其复杂的非线性关系。

深度学习:特指层次更深的神经网络。

多层感知机:最基础的前馈神经网络,可用于表格数据的分类和回归。

卷积神经网络:专门为处理网格状数据(如图像)设计,是计算机视觉领域的核心。

循环神经网络:专门为处理序列数据(如文本、时间序列、语音)设计。

Transformer:目前自然语言处理领域的绝对主力模型(如BERT, GPT系列),在计算机视觉等领域也表现优异。

其他经典模型

朴素贝叶斯:基于贝叶斯定理,假设特征之间相互独立。虽然“朴素”,但在文本分类等领域非常高效。

K近邻:一种“懒学习”算法,通过查找最接近的K个已知样本的标签来预测新样本。简单但计算开销大。

无监督学习

无监督学习的数据没有标签。模型的任务是发现数据内在的结构和模式。

聚类算法

K-Means:将数据分成K个簇,使得同一簇内的数据点尽可能相似。
用途:客户分群、图像压缩、异常检测。

DBSCAN:基于密度的聚类算法,能发现任意形状的簇,并能识别出噪声点。

层次聚类:通过构建树状的簇结构来形成数据集的层次分组。

降维算法

主成分分析:将高维数据投影到低维空间,尽可能保留原始数据的方差。常用于数据可视化和特征预处理。

t-SNE, UMAP:更现代的非线性降维技术,特别擅长将高维数据可视化到2维或3维空间,能保留复杂的局部结构。

关联规则学习

Apriori:用于从大规模数据中发现物品之间的关联规则。
用途:“购物篮分析”(经典的“啤酒和尿布”故事)。

异常检测

隔离森林:专门用于异常检测的算法,通过随机分割来隔离异常点,效率很高。

自编码器:一种神经网络,通过将输入压缩再重建来学习数据的核心特征。重建误差大的点可以被视为异常。

半监督学习

半监督学习:处理只有少量数据有标签,大部分数据无标签的情况。它结合了监督和无监督学习的方法。

强化学习

强化学习:模型(智能体)通过与环境交互,根据获得的奖励或惩罚来学习最佳策略。
用途:AlphaGo、机器人控制、自动驾驶、游戏AI。

模型选择

问题类型

预测数值? -> 回归问题(线性回归、随机森林回归、梯度提升回归)。

预测类别? -> 分类问题(逻辑回归、SVM、随机森林、神经网络)。

发现分组? -> 聚类(K-Means, DBSCAN)。

发现异常? -> 异常检测(隔离森林)。

降低维度? -> 降维(PCA, t-SNE)。

数据规模和特征

样本少、特征少:从简单模型开始,如SVM、逻辑回归。

样本多、特征多(表格数据):树模型(随机森林、XGBoost)通常是首选。

图像、文本、语音数据:深度学习(CNN, RNN, Transformer)几乎是不二之选。

对可解释性的要求

需要解释模型为什么这样预测:决策树、逻辑回归、线性模型。

追求极致精度,可解释性不重要:深度学习、复杂的集成模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/95329.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/95329.shtml
英文地址,请注明出处:http://en.pswp.cn/web/95329.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入理解Kafka事务

一 kafka事务介绍1.1 Kafka事务的作用Exactly-Once Semantics (EOS):在“消费 → 处理 → 生产”的流式链路里避免重复写与重复读带来的副作用,确保“处理一次且仅一次”的可见效果。跨分区 / 跨 Topic 原子性:将一次处理内写入的多分区多主题…

RabbitMinQ(模拟实现消息队列项目)

目录 一.消息队列背景 二.需求分析 核心概念: BrokerServer: BrokerServer的核心API: 交换机Exchange: 持久化: 网络通信: 消息应答: 三、模块划分 四、创建项目 五、创建核心类 Exchange: MSGQueue: Binding: Message: 六.…

如何构建StarRocks官方文档

不知道是网络问题还是官网问题,StarRocks文档经常出现卡顿的情况,曾经构建过Flink文档, 所以也想尝试自己构建一个StarRocks的本地官方文档 断断续续折腾了好几天,就不废话了,直接上实际步骤 1. 环境 1.1 Linux环境 …

堡垒机(跳板机)入门指南:构建更安全的多服务器运维架构

随着你的业务不断扩张,你云上服务器的数量,是不是也从一台,变成了三台、五台、甚至一个由几十台机器组成的庞大集群?你像一个尽职的“国王”,为你王国的每一座“城池”(每一台服务器)&#xff0…

(链表)Leetcode206链表反转+Leetcode6删除链表的倒数第N个结点+虚拟头节点使用

虚拟头结点的作用是:简化插入/删除逻辑方便返回头节点减少边界错误 Leetcode206链表反转 206. 反转链表 - 力扣(LeetCode) 头插法 # Definition for singly-linked list. # class ListNode(object): # def __init__(self, val0, nextN…

自然语言处理NLP:嵌入层Embedding中input_dim的计算——Tokenizer文本分词和编码

1. 词汇表大小(input_dim)计算方法 嵌入层Embedding中的input_dim是根据数据中所有唯一词(或字)的总数来决定的。可以通过Tokenizer文本分词和编码得到。 简单说,Tokenizer 是一个文本分词和编码器,它主要做…

python中的分代垃圾回收机制的原理【python进阶二、2】

1. 分代设计思想Python 将对象按存活时间分为三代(Generation 0, 1, 2):0代(年轻代):新创建的对象。1代(中年代):经历一次GC扫描后存活的对象。2代(老年代&am…

【后端】云服务器用nginx配置域名访问前后端分离项目

云服务器有多个服务(前端 3000 端口、后端 8288 端口,甚至还有别的服务)。希望用户只输入 域名(比如 https://example.com),而不是 example.com:3000、example.com:8288。本质上是要做 端口隐藏 域名统一入…

软考中级数据库系统工程师学习专篇(67、数据库恢复)

67、数据库恢复数据库故障恢复中基于检查点的事务分类与处理策略在数据库系统发生故障后的恢复过程中,​检查点(Checkpoint)​​ 技术是关键机制,它能有效缩小恢复范围,减少需要扫描的日志量,从而加速恢复进…

SpringBoot 分库分表 - 实现、配置与优化

分库分表(Database Sharding)是一种数据库架构优化技术,通过将数据分散到多个数据库或表中,以应对高并发、大数据量场景,提升系统性能和扩展性。 在 Spring Boot 中,分库分表可以通过框架支持(如…

爬虫代理实操:选择可靠的HTTP(S)代理的方法

在爬虫工作里,选对代理协议(HTTP/HTTPS)只是第一步,更关键的是找到 “可靠” 的代理 —— 哪怕是 HTTPS 代理,若节点不稳定、IP 纯净度低,照样会频繁被封,反而耽误采集进度。这几年踩过不少坑&a…

数据库常见故障类型

数据库常见故障类型数据库系统运行过程中可能发生的故障主要分为以下三类,其破坏性由小到大:故障类型别名根本原因影响范围典型例子​1. 事务故障​逻辑故障事务内部的程序逻辑错误或输入异常。​单个或少量事务。- 输入数据不合法(如除零错误…

【Android】Span富文本简介

一,概述android.text包下span体系类,主要指Spanned、Spannable、ParagraphStyle、CharacterStyle实现类。Android通过Span体系,搭建了富文本API,其中Spanned、Spannable实现了CharSequence接口,旨在映射段落start~end之…

【HTML】draggable 属性:解锁网页交互新维度

一、简介 在Web开发中,用户与内容的交互方式直接影响用户体验的深度。在 HTML 中,draggable 是一个全局属性,通过简单配置即可让任意元素实现拖拽功能。也可通过结合 draggable 属性和 JavaScript 事件,可以实现丰富的拖放交互功能…

如何在Github中创建仓库?如何将本地项目上传到GitHub中?

1.1 点击New repository(这个是创建代码仓库的意思)初次完成后只有一个文件最后:在本地git clone 项目地址然后把项目文件复制到git的文件夹内再提交到远程仓库git add . git commit -m "修改https"git push origin mainmain为分支…

【前端教程】HTML 基础界面开发

一、网站导航栏设计与实现 导航栏是网站的重要组成部分&#xff0c;负责引导用户浏览网站的各个板块。以下是一个实用的导航栏实现方案&#xff1a; 实现代码 HTML 结构&#xff1a; <!DOCTYPE html> <html> <head><meta charset"utf-8" /&…

【学Python自动化】 6. Python 模块系统学习笔记

一、模块基础 什么是模块&#xff1f;包含 Python 定义和语句的 .py 文件解决代码复用和组织问题每个模块有自己的命名空间创建模块示例# fibo.py - 斐波那契模块 def fib(n):"""打印小于n的斐波那契数列"""a, b 0, 1while a < n:print(a, e…

机器学习-时序预测2

门控循环单元GRU 接着机器学习-时序预测1-CSDN博客这个说&#xff0c;GRU是LSTM的一个简化而高效的变体&#xff0c;都使用“门控机制”来控制信息流&#xff0c;但它通过合并一些组件&#xff0c;使结构更简单、参数更少、计算更快&#xff0c;同时在许多任务上性能与 LSTM 相…

数据湖与数据仓库

大数据前沿技术详解 目录 数据湖技术湖仓一体架构数据网格实时流处理技术云原生数据技术数据治理与血缘AI原生数据平台边缘计算与大数据 核心内容包括&#xff1a; 数据湖技术 - 架构模式、技术栈、面临的挑战 湖仓一体架构 - Delta Lake、Iceberg、Hudi等主流实现 数据网格…

Python OpenCV图像处理与深度学习:Python OpenCV入门-图像处理基础

Python OpenCV入门实践&#xff1a;图像处理基础 学习目标 通过本课程&#xff0c;学员们将了解OpenCV的基本概念、安装方法&#xff0c;掌握如何使用Python和OpenCV进行基本的图像处理操作&#xff0c;包括图像的读取、显示、保存以及简单的图像变换。 相关知识点 Python Open…