1. 什么是knn算法

knn算法全名叫做k-近邻算法(K-Nearest Neighbors,简称KNN),看到名字是不是能想到是算距离的,第一个k是指超参数的意思,就是可以认为设置的意思,这里是指最近的k个样本。

2. 为什么有这个算法

如果我们要给一些数据分类,是不是通过它的一些相似的特征或者都有的特征,我们就将它分为一类,那我们怎么判别数据相不相似是不是可以通过算距离的方法,数据特征都是可以量化为数字的。knn算法就是可以干这个的算距离的。

算距离的方式

3. knn的原理

knn处理的数据是带有标签的,在使用训练集训练模型的时候,前面说了knn是通过算样本之间的距离的,所有训练模型的时候其实什么也没有干就只是保存了数据集,当测试数据的时候才会执行通过算每个样本和测试数据的特征距离,算好以后再排个序(由小到大),然后这里就需要自己传入的k值了,排序完后,就选择前k个数据,k个里面占比最高的类别是什么测试数据就属于什么。

假如黑色的点归为M,红色的点为N,现在有一个a,k为3,那么就找最近的三个点,这里黑色的点有两个虽有将a划分为M。

举个例子:我们这里测试集有1-9条,然后我们需要判断出10条什么电影类型的,假如k为3,那么前三条最近的就是8,1,9,全是喜剧片所以我们就推断10也是喜剧片,原理就这么简单。

4. api实现

KNeighborsClassifier(n_neighbors=5, algorithm='auto')
参数:                                             
(1)n_neighbors: 
int, default=5, 默认情况下用于kneighbors查询的近邻数,就是K
方法:
(1) fit(x, y) 
使用X作为训练数据和y作为目标数据  
(2) predict(X)    预测提供的数据,得到预测数据     

# 用KNN算法对鸢尾花进行分类
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier# 1)获取数据
x,y = load_iris(return_X_y=True)
# 2)划分数据集
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.2,random_state=42)
# 3)特征工程:标准化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)# 4)KNN算法预估器, k=7表示找7个邻近来判断自身类型.
estimator = KNeighborsClassifier(n_neighbors=7)
estimator.fit(x_train, y_train)#该步骤就是estimator根据训练特征和训练目标在自己学习,让它自己变聪敏
# 5)模型评估  测试一下聪敏的estimator能力# 方法1:直接比对真实值和预测值,
y_predict = estimator.predict(x_test) #y_predict预测的目标结果
print("y_predict:\n", y_predict)
print("直接比对真实值和预测值:\n", y_test == y_predict)# 方法2:计算准确率,
score = estimator.score(x_test, y_test)# 里面会自己预测y值,然后和y_test作比较,相等的个数/总数
print("准确率为:\n", score) #1.0

准确率100了,过度拟合了,这样反而是不好的,后面会讲到的。

5. knn的缺点

对于大规模数据集,计算量大,因为需要计算测试样本与所有训练样本的距离。

我们这里没什么感觉是应为数据集只有100多条,但是实际开发中的数据都是几百万上千万的数据,那这个都算一遍就哼恐怖了。

对于高维数据,距离度量可能变得不那么有意义,这就是所谓的“维度灾难”

就是那种算出来的距离为99999999912,99999999914,这样的他们的特征也不一样,但是这么数据太大了比较就有没有意义了。

需要选择合适的k值和距离度量,这可能需要一些实验和调整。

k值过大过小是不是都会影响准确率,k值太大假如接近全部样本的数量了,是不是根本就不用测我们直接统计谁的种类多就好了。

但是knn在实际应用开发中应用的好少,是应为他是训练的时候才去预测的,我们训练时时间花长一点都是没事的,但预测的时候太长,那客户使用的时候且不是要等好久才能有一个结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/92360.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/92360.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/92360.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

12-netty基础-手写rpc-编解码-04

netty系列文章: 01-netty基础-socket02-netty基础-java四种IO模型03-netty基础-多路复用select、poll、epoll04-netty基础-Reactor三种模型05-netty基础-ByteBuf数据结构06-netty基础-编码解码07-netty基础-自定义编解码器08-netty基础-自定义序列化和反序列化09-n…

解决 Windows 下的“幽灵文件”——记一次与带空格的 .gitignore 文件的艰难斗争

引言 你是否遇到过这样的情况:一个文件明明躺在你的文件夹里,ls 或 dir 命令都能清楚地看到它,但无论你用什么方法尝试删除,系统都冷酷地告诉你“找不到文件”? 就在今天,我就遇到了这样一个“幽灵”般的 .…

(易视宝)易视TV is-E4-G-全志A20芯片-安卓4-烧写卡刷工具及教程

(易视宝)易视TV is-E4-G-全志A20芯片-安卓4-烧写卡刷工具及教程PhoenixCard_V309烧录步骤:1、将TF或SD卡插入计算机,打开软件;2、选择固件所在目录;3、烧写模式选“卡量产”4、点击“烧录”开始量产&#x…

(数据结构)顺序表实现-增删查改

1.线性表 线性表(linear list)是n个具有相同特性的数据元素的有限序列。线性表是一种在实际中广泛使用的数据结构,常见的线性表:顺序表、链表、栈、队列、字符串… 线性表在逻辑上是线性结构,也就说是连续的一条直线。但是在物理结构上并不一定是连续的,线性表在物理上存储时…

【面试八股总结】线程/进程同步问题

一、同步与互斥 在线程并发执行的过程中,进程/线程之间存在协作的关系,例如有互斥、同步的关系。为了实现进程/线程间正确的协作,操作系统必须提供实现进程协作的措施和方法,主要的方法有两种: 锁:加锁、解…

大语言模型提示工程与应用:提示工程入门指南

提示工程入门 学习目标 在本课程中,我们将学习提示工程。 相关知识点 提示工程 学习内容 1 提示工程 提示工程是一门新兴学科,专注于设计和优化提示词以高效利用语言模型完成多样化任务。掌握提示工程能帮助开发者更深入理解大语言模型(LLM)的能力…

PostgreSQL 多级依赖血缘系统的设计与落地

一、业务背景:三类指标与四种状态指标类型定义规则依赖关系原子指标单表聚合(SELECT WHERE GROUP)无派生指标在原子/派生指标上加 WHERE、改 GROUP依赖 1~N 个父指标复合指标多个原子/派生指标做加减运算依赖 1~N 个父指标状态说明已保存草…

阿里云百炼平台创建智能体-上传文档

整体思路是: 1创建ram用户,授权 2上传文件获取FileSession 3调用智能体对话,传入FileSession 接下来每个步骤的细节: 1官方不推荐使用超级管理员用户获得accessKeyId和accessKeySecret,所以登录超级管理员账号创建…

剪映里面导入多张照片,p图后如何再导出多张照片?

剪映普通版本暂时没发现可以批量导出图片。这里采用其他方式实现。先整体导出视频。这里前期要注意设置帧率,一张图片的时长。 参考一下设置,帧率设置为30,图片导入时长设置为1s,这样的话,方便后期把视频切割为单帧。导…

怎么查看Linux I2C总线挂载了那些设备?

1. 根据系统启动查看设备树节点文件&#xff08;系统运行后的&#xff09; 比如&#xff1a;要查看I2C2i2c2: i2cfeaa0000 {compatible "rockchip,rk3588-i2c", "rockchip,rk3399-i2c";reg <0x0 0xfeaa0000 0x0 0x1000>;clocks <&cru CLK_…

bat脚本实现获取非微软官方服务列表

Get-CimInstance -ClassName Win32_Service |Where-Object { $_.State -eq Running -and $_.StartMode -ne Disabled } | ForEach-Object {$isMicrosoft $false$signerInfo 无可执行路径if ($_.PathName) {# 提取可执行文件路径&#xff08;处理带引号/参数的路径&#xff09…

小程序难调的组件

背景。做小程序用到了自定义表单。前后端都是分开写的&#xff0c;没有使用web-view。所以要做到功能对称时间选择器。需要区分datetime, year, day等类型使用uview组件较方便 <template><view class"u-date-picker" v-if"visible"><view c…

从零构建TransformerP2-新闻分类Demo

欢迎来到啾啾的博客&#x1f431;。 记录学习点滴。分享工作思考和实用技巧&#xff0c;偶尔也分享一些杂谈&#x1f4ac;。 有很多很多不足的地方&#xff0c;欢迎评论交流&#xff0c;感谢您的阅读和评论&#x1f604;。 目录引言1 一个完整的Transformer模型2 需要准备的“工…

qt qml实现电话簿 通讯录

qml实现电话簿&#xff0c;基于github上开源代码修改而来&#xff0c;增加了搜索和展开&#xff0c;效果如下 代码如下 #include <QGuiApplication> #include <QQmlApplicationEngine>int main(int argc, char *argv[]) {QCoreApplication::setAttribute(Qt::AA_…

顺序表——C语言

顺序表实现代码解析与学习笔记一、顺序表基础概念顺序表是线性表的一种顺序存储结构&#xff0c;它使用一段连续的内存空间&#xff08;数组&#xff09;存储数据元素&#xff0c;通过下标直接访问元素&#xff0c;具有随机访问的特性。其核心特点是&#xff1a;元素在内存中连…

【Oracle篇】Oracle Data Pump远程备份技术:直接从远端数据库备份至本地环境

&#x1f4ab;《博主主页》&#xff1a;    &#x1f50e; CSDN主页__奈斯DB    &#x1f50e; IF Club社区主页__奈斯、 &#x1f525;《擅长领域》&#xff1a;擅长阿里云AnalyticDB for MySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控&#xff1b;并对…

Linux系统--文件系统

大家好&#xff0c;我们今天继续来学习Linux系统部分。上一次我们学习了内存级的文件&#xff0c;下面我们来学习磁盘级的文件。那么话不多说&#xff0c;我们开始今天的学习&#xff1a; 目录 Ext系列⽂件系统 1. 理解硬件 1-1 磁盘、服务器、机柜、机房 1-2 磁盘物理结构…

KUKA库卡焊接机器人氩气节气设备

在焊接生产过程中&#xff0c;氩气作为一种重要的保护气体被广泛应用于KUKA库卡焊接机器人的焊接操作中。氩气的消耗往往是企业生产成本的一个重要组成部分&#xff0c;因此实现库卡焊接机器人节气具有重要的经济和环保意义。WGFACS节气装置的出现为解决这一问题提供了有效的方…

远程连接----ubuntu ,rocky 等Linux系统,WindTerm_2.7.0

新一代开源免费的终端工具-WindTerm github 27.5k⭐ https://github.com/kingToolbox/WindTerm/releases/download/2.7.0/WindTerm_2.7.0_Windows_Portable_x86_64.zip 主机填写你自己要连接的主机ip 端口默认 22 改成你ssh文件配置的端口 输入远程的 用户名 与密码 成功连接…

笔试——Day32

文章目录第一题题目思路代码第二题题目&#xff1a;思路代码第三题题目&#xff1a;思路代码第一题 题目 素数回文 思路 模拟 构建新的数字&#xff0c;判断该数是否为素数 代码 第二题 题目&#xff1a; 活动安排 思路 区间问题的贪⼼&#xff1a;排序&#xff0c;然…