一、数据挖掘定义

数据挖掘:
从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的
和可能有用的 模式或知识 ,并据此更好的服务人们的生活。

二、四类任务

数据分析有哪些任务?

今天我们来讲述其中的关联分析

三、关联分析

典型例子:啤酒与尿布

常用方法 —— 关联规则挖掘 (Association Rule Mining)

        给出事务的集合, 能够发现一些规则:𝐴 => 𝐵

        当事务中某些子项出现时,预测其他子项也出现

基本概念:

Association Rule(关联规则)

    形如X → Y的表达式,X, Y均为项集

    例:{Milk, Diaper} →{Beer}

Confidence (置信度)

    度量包含X的事务中同时出现Y的频率

    例:对于关联规则{Milk, Diaper} →{Beer}

    confidence({Milk, Diaper} →{Beer})= 2/3

强关联规则

    用户自行设定最小置信度阈值min _conf,置信度大于min _conf的规则称为强关联规则

    例:设min _conf = 0.5,则{Milk, Diaper} →{Beer}为强关联规则

四、APriori算法

生成频繁项集

核心思想:广度优先搜索,自底而上遍历,逐步生成候选集与频繁项集

反单调性原理:如果一个项集是频繁的,则它的所有子集一定也是频繁

成立原因:

        ∀X, Y: X ⊆ Y → Support X ≥ Support(Y)

        依据该性质,对于某k+1项集,只要存在一个k项子集不是频繁项集, 则可以直接判定该项集不是频繁项集

 

算法步骤

        连接步:从频繁 K-1 项集生成候选K项集

        剪枝步:从候选 K 项集筛选出频繁K项集

举个例子:

下图为某商店的用户购买记录,共有9个事务,A-Priori假定事务中的项按字典次序存放。

(1) 在算法的第一次迭代,每个项都是候选1项集的集合C_1的成员。算法简单地扫描所有的事务,对每个项的出现次数计数

(2) 设最小支持度计数=2,可以确定频繁1项集的集合L_1

(3) 使用L1⋈ L1产生候选2项集的集合C_2

(4) 扫描数据集,计算C_2中每个候选项集的支持度

(5)最小支持度计数=2,确定频繁2项集的集合L_2

(6) 使用L2⋈ L2产生候选3项集的集合C_3

(7) 扫描数据集,计算C_3中每个候选项集的支持度

(8)最小支持度计数=2,确定频繁3项集的集合L_3

(9) 使用L3⋈ L3产生候选4项集的集合C4,尽管连接产生结果 \{l_1, l_2, l_3, l_5\} ,这个项集被

剪去,因为它的子集 \{l_2, l_3, l_5\}不是频繁的。则C4 = ∅ ,因此算法终止,找出了所有的

频繁项集如下

五、生成规则

关联规则挖掘的第二步:如何从频繁项集中生成规则?

若{A,B,C,D}是频繁项集, 候选规则有14种:

ABC →D, ABD →C, ACD →B, BCD →A,

A →BCD,B →ACD, C →ABD, D →ABC

AB →CD,AC → BD, AD → BC, BC →AD,BD →AC, CD →AB,

|L| = k, 则有2^k- 2 种候选的关联规则(忽略L → \phi\phi → L)

关联规则生成(Rule Generation)—— 计算复杂度

对于d个项目:

候选项集数= 2^d

可能规则数R = 3^d-2^{d+1}+1

六、辛普森悖论

相关关系≠因果关系,但相关关系的背后可能蕴含着某种因果

例如,公鸡打鸣 → 太阳升起,从关联规则角度来说,是高置信度规则,说明“公鸡打鸣 ”与“太阳升起”很相关,但并不是因果关系

第二个实例:

适当的数据分层有助于避免辛普森悖论


下一讲,我们将讲述分类和预测

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/85707.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/85707.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/85707.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AWS Security Hub邮件告警设置

问题 需要给AWS Security Hub设置邮件告警。 前提 已经启用AWS Security Hub。 AWS SNS 创建一个AWS Security Hub告警主题SecurityHub-Topic,如下图: 创建完成后,订阅该主题。 AWS EventBridge 设置规则名SecurityHubFindings-Rules…

(OSGB转3DTiles强大工具)ModelSer--强大的实景三维数据分布式管理平台

1. ModelSer 能帮我们做什么 1.1 最快速的 osgb 发布 3dtiles 服务 测试的速度大于 10G/分钟,且速度基本是线性的(100G10分钟,1T100分钟)。支持城市级倾斜数据半天内完成服务发布,并支持数据的单块更新。 1.2 支持所见…

《HTTP权威指南》 第5-6章 Web服务器和代理

基本Web服务器请求的步骤 1、建立连接 接受一个客户端连接,或者如果不希望与这个客户端建立连接,就将其关闭。 处理新连接客户端主机名识别:反向DNS查找,将IP地址转换为客户端主机名过ident确定客户端用户:客户端支持…

微信二次开发,对接智能客服逻辑

接口友情链接,点击即可访问。 ## 设备创建与复用机制 首次调用/login/getLoginQrCode需传空appId触发设备创建,响应返回固定设备ID。后续登录必须复用此ID以避免风控(同一微信号绑定固定设备)。设备类型可选ipad/mac,当…

网站并发访问量达到1万以上需要注意哪些事项

当网站并发访问量达到1万以上时,需要注意以下几个方面‌: ‌服务器硬件配置‌: ‌处理器(CPU)‌:选择多核、高频率的CPU,以确保服务器能够高效地处理大量的请求。‌内存(RAM&#xf…

二、OpenCV的第一个程序

文章目录 一、第一个程序:显示图片1.1 cv::imread1.2 cv::namedWindow1.3 cv::imshow 二、第二个程序:视频2.1 cv::VideoCapture 三、加入了滑动条的基本浏览窗口 一、第一个程序:显示图片 示例:一个简单的加载并显示图像的OpenC…

第14次:商品列表、热销商品及详情

第1步:定义获取商品列表的视图类ListView,本视图中完成了如下功能: 根据商品类别id获取商品类别信息,并根据类别信息反向查询到所有的该类别的商品。根据页号和排序方式两个参数,获取某个页面的商品列表信息。 #good…

基于双层注意力重加权 LSTM 的中文长文本谣言检测模型

文章目录 1.摘要2.介绍3.相关工作3.1 假新闻检测数据集3.2 假新闻检测方法3.3 长文本假新闻检测的挑战与进展3.4 与现有方法的区别 4.方法4.1 模型结构4.2模型代码4.3 损失函数与优化方法 5. 实验5.1 数据集与预处理5.2 实验设置5.3 实验结果5.4 对比分析5.5 结果分析与讨论 6.…

在 MyBatis 的xml中,什么时候大于号和小于号可以不用转义

在 MyBatis 中&#xff0c;< 和 > ​在动态 SQL 标签内部​ 无需转义的功能是在以下版本引入的&#xff1a; &#x1f4cc; 关键版本说明 版本支持情况注意事项​MyBatis 3.3.0​​✅ 在 <if>、<where>、<set> 等动态 SQL 标签内部可直接使用 < 和…

Redis 的穿透、雪崩、击穿

Redis 的穿透、雪崩、击穿 1、缓存穿透 定义 缓存穿透是指查询一个不存在的数据&#xff0c;由于缓存中没有该数据&#xff0c;每次请求都会直接访问数据库&#xff0c;导致数据库压力过大 产生原因 恶意攻击&#xff1a;攻击者故意请求大量不存在的key&#xff0c;导致请求直…

有道翻译官手机版:智能翻译,随行助手

在当今全球化的时代&#xff0c;语言不再是交流的障碍。无论是学习外语、出国旅游、商务出差还是日常交流&#xff0c;一款高效、准确的翻译软件都能成为我们的好帮手。有道翻译官手机版正是这样一款功能强大、操作便捷的语言翻译软件&#xff0c;它凭借先进的翻译技术和丰富的…

nuxt3 + vue3 分片上传组件全解析(大文件分片上传)

本文将详细介绍一个基于 Vue.js 的分片上传组件的设计与实现,该组件支持大文件分片上传进度显示等功能。 组件概述 这个上传组件主要包含以下功能: 支持大文件分片上传(默认5MB一个分片)支持文件哈希计算,用于文件唯一标识显示上传进度(整体和单个文件)支持自定义UI样…

正则表达式与C++

转自个人博客 1. 概述 1.1 正则表达式概述 正则表达式&#xff08;Regular Expressions&#xff0c;简称 regex&#xff09;是用于匹配文本模式的一种特殊字符序列&#xff0c;其可以用一系列字符来表示出不同文本的对应模式。正则表达式的应用范围十分广泛&#xff0c;包括验…

OpenCV CUDA模块设备层-----在 GPU上计算反双曲正切函数atanh()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 对输入的 uchar1 像素值&#xff08;范围 [0, 255]&#xff09;&#xff0c;先归一化到 [0.0, 1.0] 浮点区间&#xff0c;然后计算其 反双曲正切…

抢占西南产业高地:入驻成都芯谷金融中心文化科技产业园的价值

入驻成都芯谷金融中心文化科技产业园&#xff0c;对企业而言具有显著的战略价值&#xff0c;主要体现在以下几个方面&#xff1a; 产业聚集效应与协同发展 产业链完善&#xff1a;成都芯谷聚焦集成电路、新型显示、人工智能等核心产业&#xff0c;入驻企业可享受完善的产业链…

领域驱动设计(DDD)【2】之项目启动与DDD基本开发流程

文章目录 一 项目背景与目标二 核心需求分析初步需求详细分析需求总结表 三 DDD核心概念与开发流程领域和领域专家领域驱动设计开发流程 四 潜在扩展需求 一 项目背景与目标 项目定位 开发基于SaaS的企业管理系统&#xff0c;聚焦软件服务企业的细分市场&#xff0c;功能需求包…

深度融合数智化,百胜软件联合华为云加速零售行业转型升级

当前&#xff0c;企业数字化转型纵深推进&#xff0c;满足企业数智化全阶段、全场景的需求变得尤为关键。为此&#xff0c;华为云携手上万家伙伴共同发起第三届828 B2B企业节&#xff0c;依托云底座为企业数智化供需“架桥”“铺路”&#xff0c;加速企业智改数转&#xff0c;助…

《HTTP权威指南》 第4章 连接管理

带着问题学习&#xff08;通常是面试考点&#xff09; HTTP是如何使用TCP连接的TCP连接的时延、瓶颈及存在的障碍HTTP的优化&#xff0c;包括并行连接、keep-alive&#xff08;持久连接&#xff09;和管道化连接管理连接时应该和不应该做的事 TCP连接 TCP的数据通过IP分组&am…

StartUML入门级使用教程——画Class类图

一、破解安装StartUML StarUML建模工具最新版破解安装详细教程https://blog.csdn.net/m0_74146638/article/details/148709643?spm1001.2014.3001.5502 二、类图实战 1.主界面 ​ 默认打开starUML后&#xff0c;会默认进入类图模式&#xff0c;各模块区域功能如下&#x…

中科亿海微SoM模组——FPGA+DSP核心板

FPGADSP核心板是基于中科亿海微EQ6HL130型FPGA芯片搭配国产DSP开发的高性能核心板卡。对外接口采取邮票孔连接方式&#xff0c;可以极大提高信号传输质量和焊接后的机械强度。核心板卡的系统框图如下图所示。 图 FPGADSP核心板系统框图 FPGA采用中科亿海微136K LUT资源EQ6HL130…