种一棵树最好的时间是十年前,其次是现在。

一、机器学习算法分类

机器学习(ML,Meachine Learning)是人工智能的核心领域,让计算机从数据中学习规律并做出预测,本文简单介绍机器学习的算法分类和开发流程。

常见的机器学习算法从学习方式上可以分为以下几类:监督学习无监督学习半监督学习等其它类型,其中监督学习是指使用带有标签(已标记)的数据集进行训练,模型通过学习输入特征与标签之间的映射关系进行预测或分类,监督学习又可以根据输出是否连续分为分类和回归问题,连续的称为回归,离散的称为分类;而无监督学习则是指处理无标签(未标记)的数据集,模型通过算法自行发现数据中的隐藏结构或模式(如聚类、降维)

机器学习
算法分类
子类定义常见算法应用场景示例
监督学习分类使用带有标签的数据集进行训练
模型输出离散数据
k-近邻算法
贝叶斯分类
决策树
逻辑森林
逻辑回归
SVM
神经网络
垃圾邮件检测
图像识别
回归使用带有标签的数据集进行训练
模型输出连续数据
线性回归
岭回归
随机森林
房价预测
销量预测
无监督学习聚类聚类算法将数据点分组
使得同一组内的数据点相似度高
而不同组的数据点相似度低
K-means算法
层次聚类
客户分群
文档主题分类
降维减少数据集中的特征数量
以简化模型并提高计算效率
主成分分析(PCA)分析药物主要成分
其它半监督学习结合少量标注数据和大量未标注数据进行学习标签传播
半监督SVM
医学图像分析
自监督学习通过数据自身的结构生成标签进行训练Masked Language Model(BERT)
对比学习
自然语言处理
图像预训练
强化学习通过与环境的交互学习最优策略
以最大化长期奖励
Q-Learning
深度Q网络(DQN)
策略梯度
游戏AI
机器人控制
自动驾驶
深度学习多层神经网络自动提取特征
可应用于监督/无监督/强化学习
CNN
RNN
图像识别
文本生成

二、机器学习开发流程

以监督学习为例,但核心步骤适用于所有机器学习任务

2.1 步骤1-问题定义

核心目标:将模糊的业务需求转化为可量化的机器学习任务。

关键操作说明案例
确定任务类型分类/回归/聚类?用户流失预测 → 二分类任务
定义成功指标选择与业务目标一致的评估指标欺诈检测 → 高召回率(宁错杀不放过)
推荐系统 → 精确率
约束条件分析时延要求、可解释性需求、计算资源限制医疗诊断 → 需要可解释性(选择决策树而非神经网络)
可行性评估数据是否足够?特征是否可获取?使用数据矩阵草图验证特征覆盖率

常见陷阱:

  • 将回归问题错误定义为分类问题(如将销售额预测转为"高/中/低"三分类)
  • 忽略业务成本(如信用卡欺诈中误判好客户的代价)

2.2 步骤2-数据收集

数据类型获取方式预处理难点
结构化数据SQL查询、数据仓库导出处理缺失值
文本数据API抓取、日志解析分词、去停用词
图像数据爬虫、公开数据集尺寸归一化
时序数据IoT传感器、用户行为日志处理时间漂移

2.3 步骤3-数据预处理

核心目标:将原始数据转化为信息密度更高的特征。

2.3.1 数据清洗

缺失值处理策略:

方法适用场景
删除样本缺失率<5%且随机缺失
中位数/众数填充数值型/分类型特征
模型预测填充高价值数据且缺失有模式
增加缺失标志位缺失本身包含信息

2.3.2 特征工程

特征变换技巧:

  • 数值特征:对数变换(右偏分布)、Box-Cox变换
  • 时间特征:提取"小时/星期几/是否节假日"
  • 文本特征:TF-IDF、Word2Vec嵌入
  • 组合特征:用户年龄 × 商品价格(交互效应)

降维策略对比:

方法保留信息可解释性线性假设适用场景
PCA全局结构需要图像预处理
t-SNE局部结构不需要高维数据可视化
LDA类别区分需要分类任务特征压缩
自编码器非线性不需要复杂数据表示学习

2.3.3 数据分割

把处理好的数据按一定比例划分训练集、测试集、验证集。

2.4 步骤4-模型选择与训练

简单算法选型决策树:

在这里插入图片描述

scikit-learn的算法选择决策:

在这里插入图片描述

计算优化技巧:

  • 使用GPU加速(CUDA)
  • 分布式训练(如Spark MLlib)
  • 增量学习(partial_fit)处理超大数据

2.5 步骤5-模型评估

评估指标全景图:

分类任务:┌─宏观指标──准确率(Accuracy)├─类别平衡─┤│          └─F1-score(F1)│├─概率评估─AUC-ROC曲线│└─业务对齐─精确率(Precision)/召回率(Recall)权衡回归任务:├─绝对误差─MAE(平均绝对误差)├─放大异常─MSE(均方误差)└─比例解释─R²(决定系数)

典型问题诊断:

  • 准确率高但AUC低 → 模型无区分力
  • 验证集表现远差于训练集 → 过拟合
  • 某些类别召回率极低 → 样本不平衡

2.6 步骤6-模型调优

调优方法对比:

方法搜索效率并行性适用空间大小代码实现
网格搜索小(<10维)GridSearchCV
随机搜索中(<100维)RandomizedSearchCV
贝叶斯优化BayesianOptimization
遗传算法极大TPOT

调优黄金法则:

  • 先粗调(大范围随机搜索)
  • 再精调(小范围贝叶斯优化)
  • 最终确认需在测试集上只评估一次。

2.7 步骤7-模型部署与监控

简单的部署架构示例:

用户请求 → API网关 → 预测微服务 → 模型缓存 ↓监控系统(Prometheus)↓日志分析 → 模型性能仪表盘

监控关键指标:

  • 预测分布变化(PSI群体稳定性指数)
  • 特征漂移检测(KL散度)
  • 业务指标关联性(如推荐系统CTR变化)

可参考的迭代触发机制:

监控警报规则:- PSI > 0.25 → 严重漂移- 精度下降 > 15% → 需要重新训练- 新数据量 > 10倍原始数据 → 自动触发增量训练

模型版本管理参考:

  • 使用MLflow/DVC跟踪实验
  • A/B测试流量分配(10%新模型 vs 90%旧模型)

动态流程调整:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/86845.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/86845.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/86845.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用pyflink编写demo并将任务提交到yarn集群

目录 背景 一、pyflink安装 二、编写demo程序 三、提交yarn前准备 四、提交任务 五、踩坑记录 1、提交任务时客户端出现语法错误 2、提交任务时客户端出现lzma包找不到 3、提交任务时客户端出现“org.apache.flink.streaming.api.utils.PythonTypeUtils.getCollectionIn…

Vue 3 最基础核心知识详解

Vue3作为现代前端主流框架&#xff0c;是前后端开发者都应当掌握的核心技能。本篇文章将带你了解vue3的基础核心知识&#xff0c;适合学习与复习 一、Vue 3 应用创建 1.1 创建Vue应用的基本步骤 // main.js import { createApp } from vue // 1. 导入createApp函数 import …

Bootstrap 5学习教程,从入门到精通,Bootstrap 5 Flex 布局语法知识点及案例(27)

Bootstrap 5 Flex 布局语法知识点及案例 Bootstrap 5 提供了强大的 Flexbox 工具集&#xff0c;让布局变得更加简单灵活。以下是 Bootstrap 5 Flex 布局的完整知识点和详细案例代码。 一、Flex 布局基础语法 1. 启用 Flex 布局 <div class"d-flex">我是一个…

HarmonyOS 5智能单词应用开发:记忆卡(附:源码

一、应用概述与核心价值 在语言学习过程中&#xff0c;单词记忆是基础也是难点。本文介绍的智能单词记忆卡应用通过创新的交互设计和科学的学习模式&#xff0c;帮助用户高效记忆单词。应用采用ArkUI框架开发&#xff0c;主要特点包括&#xff1a; 双模式学习系统&#xff1a…

LeetCode--38.外观数列

前言&#xff1a;之前我不是说&#xff0c;我后续可能会讲一下递归吗&#xff0c;现在它来了&#xff0c;这道题会用到回溯的方法&#xff0c;并且比较纯粹哦 解题思路&#xff1a; 1.获取信息&#xff1a;&#xff08;下面这些信息差不多是力扣上面的题目信息了&#xff0c;所…

服务器的安装与安全设置

1&#xff1a;安装操作系统 1、创建虚拟机Win49&#xff08;49为序号&#xff09;&#xff0c;并安装Windows Server 2019操作系统 参考配置&#xff1a;安装系统的分区大小为20GB&#xff0c;其余分区暂不划分&#xff0c; 文件系统格式为NTFS&#…

Sensodrive SensoJoint机器人力控关节模组抗振动+Sensodrive力反馈系统精准对接

Sensodrive成立于2003年&#xff0c;起源于德国航空航天中心&#xff08;DLR&#xff09;的LBR项目。公司由一批传感器技术专家创立&#xff0c;专注于高精度工业扭矩传感器的研发。凭借二十余年的技术积累&#xff0c;Sensodrive将DLR轻型机器人扭矩技术引入工业领域&#xff…

【AI实践】Mac一天熟悉AI模型智能体应用(百炼版)

25.6.29增加Gummy 实时/一句话语音识别25.6.28增加Qwen TTS本地音频和实时播报 背景 准备环境 MacOS M1电脑&#xff08;其他M系列芯片也可以&#xff09; 为了方便python的使用环境&#xff0c;使用Miniconda&#xff1a;下载链接&#xff1a;Download Anaconda Distribution…

WEB安全--Java安全--jsp webshell免杀1

1.1、BCEL ClassLoader 介绍&#xff08;仅适用于BCEL 6.0以下&#xff09;&#xff1a; BCEL&#xff08;Apache Commons BCEL™&#xff09;是一个用于分析、创建和操纵Java类文件的工具库&#xff1b;BCEL的类加载器在解析类名时会对ClassName中有$$BCEL$$标识的类做特殊处…

Valkey与Redis评估对比:开源替代方案的技术演进

#作者&#xff1a;朱雷 文章目录 1 概述1.1内存数据结构存储核心特性1.2主流内存数据结构存储设计与适用场景1.3目前主流内存数据结构存储对比 2 Valkey 说明2.1 哨兵架构设计2.2 集群架构设计2.3 valkey 使用企业和业内生态‌ 3 评估指标4 评估结果 1 概述 内存数据结构存储…

华为云Flexus+DeepSeek征文 | 基于华为云ModelArts Studio安装NoteGen AI笔记应用程序

华为云FlexusDeepSeek征文 | 基于华为云ModelArts Studio安装NoteGen AI笔记应用程序 引言一、ModelArts Studio平台介绍华为云ModelArts Studio简介ModelArts Studio主要特点 二、NoteGen介绍NoteGen简介主要特点 三、安装NoteGen工具下载NoteGen软件安装NoteGen工具 四、开通…

BUUCTF在线评测-练习场-WebCTF习题[BJDCTF2020]Easy MD51-flag获取、解析

解题思路 打开靶场&#xff0c;有个提交框&#xff0c;输入后url会出现我们提交的参数password http://a48577ed-9a1c-4751-aba0-ae99f1eb8143.node5.buuoj.cn:81/leveldo4.php?password123 查看源码并没用发现什么猫腻&#xff0c;抓包在响应头发现了猫腻 hint: select * …

面向对象三大特性深度解析:封装、继承与多态

面向对象三大特性深度解析&#xff1a;封装、继承与多态 思维导图概览 #mermaid-svg-v2u0XIzKotjyXYei {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-v2u0XIzKotjyXYei .error-icon{fill:#552222;}#mermaid-svg-v2…

mmap映射物理内存之三invalid cache

目录 流程设计 invalid 命令 内核态invalid 内核态invalid&#xff0c;用户态mmap物理地址 PAN机制 PAN机制历程 硬件支持 ARMv8.1-PAN 特性 Linux 内核的适配 软件模拟 PAN&#xff08;SW PAN&#xff09; 背景 Linux 的实现 总结 前述刷新cache的流程也同样可…

记忆化搜索(dfs+memo)无环有向图

这是一道可以当作板子的极简记忆化搜索 建立a 是邻接表&#xff0c;其中 a[x] 存储从节点 x 出发能到达的所有节点。 b[x] 记录从节点 x 出发的所有边的权重之和。根据数学原理&#xff0c;我们很容易发现&#xff0c;一个根&#xff08;起点&#xff09;的期望&#xff0c;等…

使用AI豆包写一个车辆信息管理页面

记录一个基本的车辆信息管理页面&#xff0c;由豆包撰写完成&#xff0c;只需要微调页面即可。 主要功能是车辆信息的查询、新增、编辑&#xff0c;项目用到了uniapp、vue3、ts、uni-ui、z-paging 页面效果如下&#xff1a; 以上界面均由豆包生成&#xff0c;完成度非常高&am…

《HarmonyOSNext应用防崩指南:30秒定位JS Crash的破案手册》

《HarmonyOSNext应用防崩指南&#xff1a;30秒定位JS Crash的破案手册》 ##Harmony OS Next ##Ark Ts ##教育 本文适用于教育科普行业进行学习&#xff0c;有错误之处请指出我会修改。 &#x1f4a5; 哇哦&#xff01;JS Crash崩溃日志完全解析手册 当你的应用突然闪退时&am…

阅读笔记(3) 单层网络:回归(下)

阅读笔记(3) 单层网络:回归(下) 该笔记是DataWhale组队学习计划&#xff08;共度AI新圣经&#xff1a;深度学习基础与概念&#xff09;的Task03 以下内容为个人理解&#xff0c;可能存在不准确或疏漏之处&#xff0c;请以教材为主。 1. 为什么书上要提到决策理论&#xff1f; …

Mac OS系统每次开机启动后,提示:输入密码来解锁磁盘“Data”,去除提示的解决方法

问题描述&#xff1a; Mac mini外接了一个磁盘&#xff08;EX_Mac&#xff09;为默认使用的系统盘&#xff0c;内置的硬盘&#xff08;Macintosh HD&#xff09;为Mac mini自带的系统盘 外置硬盘系统每次开机都会挂载内置磁盘&#xff0c;同时会提示需要输入密码来解锁磁盘“…

CSS Flex 布局中flex-shrink: 0使用

flex-shrink: 0 是 CSS Flexbox 布局中的一个关键属性&#xff0c;用于禁止弹性项目&#xff08;flex item&#xff09;在容器空间不足时被压缩。以下是详细解释和示例&#xff1a; 核心作用 当容器的可用空间小于所有弹性项目的总宽度&#xff08;或高度&#xff09;时&#…