bicheng/2025/6/21 0:39:33/文章来源:https://blog.csdn.net/2301_79853895/article/details/148727372

一、特征工程定义

在数据预处理以后（或者数据预处理过程中），如何从数据中提取有效的特征，使这些特征能够尽可能的表达原始数据中的信息，使得后续建立的数据模型能达到更好的效果，就是特征工程所要做的工作。

特征越好，灵活性越强

特征越好，构建的模型越简单

特征越好，模型的性能越出色

二、设计特征的方法

独热特征表示 One-hot Representation

将每个属性表示成一个很长的向量（每维代表一个属性值，如词语）

函数：[0, 0, 1, 0, 0, …, 0, 0, 0, 0]

图像：[0, 0, 0, 0, 0, …, 0, 0, 0, 1]

优点：直观，简洁

缺陷：

“维度灾难” 问题：尤其是我们所构建的语料库包含的词语数据非常多的时候，独热表征在空间和时间上的开销都是十分巨大的

“语义鸿沟” 现象：任意两个词之间都是完全孤立的，是无法刻画句子中词语的语序信息的（之前提到的词袋模型也是如此）。例如，我们是无法通过独热表征来判断“函数”与“偶函数”之间的联系的（但实际上这两个词语是非常相关的）。

TF-IDF（词频-逆文档率）

算法简单高效,工业界用于最开始的数据预处理

主要思想：找到能代表该文档中的“关键词”

词频（TF, Term Frequency）

TF = 某个词(特征值)在句子(数据)中出现的频率

逆文档率（IDF, Inverse Document Frequency）

IDF = log(语料库(数据库)的句子(数据)总数) / 包含该词(特征值)的句子(数据)总数)

每个特征值（词）的重要性

$w_{ij}= tf\times idf = TF_{ij}\times \log(N/DF_i )$

举个直观例子：

很多推荐系统都使用该方法，根据用户搜索的信息内容，计算词频等，来推荐相关的信息

三、利用标准数据集进行特征学习（特征预训练）

作用：模型效果验证 & 应用问题中的模型预训练

图像数据预训练：ImageNet

ImageNethttp://www.image-net.org/

1400万张图片数据，2万类别，已标注

常用模型：ResNet，AlexNet，VGG等

常见应用：图像分类、目标检测、目标定位，场景分类等

文本数据预训练：Twitter，Wiki

GloVe: Global Vectors for Word RepresentationGloVe: Global Vectors for Word Representationhttps://nlp.stanford.edu/projects/glove/

2 Billon tweets, 27 Billion 词数，1.2M 词表

常用模型：CBOW，Skip-gram，Glove等Word2Vec模型

常见应用：文本分类，文本推理，翻译等

训练好的特征可以直接作为其他模型的输入来使用

笔者时间问题，还是不把课程内容之外的特征工程评价这一块拿上来。因为其中涉及损失函数（传统特征工程）、CNN、RNN（深度学习）等方法，可以去有关机器学习、深度学习的课程，或者西瓜书、花书一类的经典教辅学习！

下一讲又是全新的章节！加油！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/bicheng/85506.shtml
繁体地址，请注明出处：http://hk.pswp.cn/bicheng/85506.shtml
英文地址，请注明出处：http://en.pswp.cn/bicheng/85506.shtml

如若内容造成侵权/违法违规/事实不符，请联系英文站点网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

标杆确立！永洪科技位于IDC报告Data Analytics领域象限排头位！

近日，全球知名市场研究机构IDC发布的《数据管理分析与生成式AI发展趋势及最佳实践》报告，为正处于数字化转型深水区的企业描绘了清晰的技术演进蓝图。在这幅权威绘制的产业图谱中，“Data Analytics”（数据分析）作为连接…

阅读更多...

启动tomcat控制台日志出现乱码

当我们启动tomcat控制台日志出现乱码怎么办？ 解决方案： 在tomcat根目录中config文件夹下将log.properties文件中将默认控制台日志输出编码UTF修改成GBK或者GB2312都可以。 java.util.logging.ConsoleHandler.encoding UTF-8 修改为： j…

阅读更多...

【橘子的AI | 每日一课】Day4！机器学习 (ML) 基础

机器学习 (ML) 基础介绍一、机器学习的定义从广义上来说，机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的…

阅读更多...

【C语言】药店药品管理系统 -丨完整源码与实现解析

系统概述这是一个功能完善的药店药品管理系统，使用C语言开发，基于链表数据结构实现。系统提供药品信息的增删改查、排序和持久化存储功能，适用于药店日常药品管理工作。数据结构设计 #define MAX_NAME_LEN 50 #define MAX_ID_LEN 20 #de…

阅读更多...

sass-loader与webpack版本冲突解决方案

#npm i 错误解决记录# 最开始错误 ：拉取代码，增加依赖时，报错问题： 在安装sass-loader10.1.1时，发现与现有的webpack版本有冲突。当前项目已经安装了webpack4.28.4（通过peer dependency requirements f…

阅读更多...

常见误区解读之三：超融合只适合外围/轻量业务场景，无法承载数据库等关键业务？

作者：SmartX 金融团队祝志刚在前两期“超融合常见误区解读”中，我们分别解读了如何以超融合建云并进行大规模部署。而对于生产业务场景，部分行业用户和业界人士可能还会有这样的认知： “超融合管理简单、成本也低，…

阅读更多...

Kafka重平衡机制深度解析：原理、触发条件与应对策略

引言在Kafka分布式消息系统中，重平衡（Rebalance）是一个至关重要的机制，它确保消费者组中的各个消费者实例能够公平地分担主题分区的消费任务。然而，重平衡过程也可能带来短暂的消费停顿和性能波动，处理不…

阅读更多...

使用 Docker Compose 安装 Milvus（单机版）

1. 创建专用目录并进入 mkdir milvus-standalone && cd milvus-standalone 2. 下载 docker-compose.yml 文件使用官方提供的配置文件（以 Milvus v2.3.3 为例）： wget https://github.com/milvus-io/milvus/releases/download/v2.3…

阅读更多...

【MySQL篇05】：事务的 ACID 性（数据库原理篇）

文章目录一、事务的ACID特性二、数据库原理例题与 ACID 特性判断三、拓展（undolog 与 redolog） 一、事务的ACID特性综述： 原子性（Atomicity）：事务是不可分割的最小操作单元，要么全部成功&…

阅读更多...

crawl4ai 框架的入门讲解和实战指南——基于Python的智能爬虫框架，集成AI（如NLP/OCR）实现自动化数据采集与处理

crawl4ai 框架的入门讲解和实战指南——基于Python的智能爬虫框架，集成AI（如NLP/OCR）实现自动化数据采集与处理

一、crawl4ai 框架简介 1. 框架定位核心功能：基于Python的智能爬虫框架，集成AI（如NLP/OCR）实现自动化数据采集与处理关键特性： 零配置快速启动（自动识别网页结构） 内置反反爬机制&#xff…

阅读更多...

受够垃圾翻译！CodeBuddy 8 分钟造神器，划词秒翻 + 自动适配所有网页

受够垃圾翻译！CodeBuddy 8 分钟造神器，划词秒翻 + 自动适配所有网页

本文所使用的 CodeBuddy 免费下载链接：腾讯云代码助手 CodeBuddy - AI 时代的智能编程伙伴前言作为一个天天泡在 GitHub 上扒项目的人，翻译问题简直是我 “挖宝” 路上的头号绊脚石！想研究国外大神的优质开源项目，不是被机翻软…

阅读更多...

零基础设计模式——总结与进阶 - 2. 反模式

第五部分：总结与进阶 - 2. 反模式 (Anti-Patterns) 在软件开发中，我们追求良好的设计模式以构建健壮、可维护的系统。然而，同样存在一些常见的、导致不良后果的解决方案，这些被称为“反模式”。理解反模式，可以帮助我…

阅读更多...

音视频流媒体高级开发-学习路线

原文作者：Linux 原文链接：音视频流媒体高级开发-学习路线如果你想往音视频方向发展，那么本文一定要认真阅读~ 大家都知道音视频开发薪资高、门槛高、发展空间大，心里蠢蠢欲动，却不知道怎么入门，怎么进阶…

阅读更多...

LINUX 通过rsync同步免密备份

1，增加免密码用户密码 useradd backup echo "5566777" | passwd --stdin backup echo "backup ALL(ALL) ALL" >> /etc/sudoers # 源服务器操作 ssh client_usersource_server ssh-keygen -t rsa # 一路回车 ssh-copy-id serv…

阅读更多...

在使用 HTML5 的＜video＞标签嵌入视频时，有时会遇到无法播放 MP4 文件的问题

在使用 HTML5 的＜video＞标签嵌入视频时，有时会遇到无法播放 MP4 文件的问题

原因分析： 只能播放声音，却无法播放视频。这通常是由于视频编码格式不兼容导致的。虽然 MP4 是一种常见的视频格式，但它包含多种编码方式，并非所有编码方式都受 HTML5 支持。解决方案： 确认视频编码格式： …

阅读更多...

【bugfix】记一次Spring Boot 配置层级错误导致数据库连接失败

前言：为什么你的数据库配置读不到？ 在 Spring Boot 项目中，配置文件的层级（prefix） 是决定属性能否被正确解析的核心因素。一个看似微小的缩进错误，可能导致整个应用的数据库连接失败、服务启动异常&#…

阅读更多...

wpf 队列(Queue)在视觉树迭代查找中的作用分析

文章目录队列(Queue)在视觉树迭代查找中的作用分析示例代码一、队列的核心作用1. 替代递归的迭代机制2. 实现广度优先搜索(BFS) 二、队列的工作流程1. 初始化阶段2. 处理循环三、队列操作的详细步骤查找过程分解： 四、为什么使用队列而不是其他数据结构1. 与栈(St…

阅读更多...

快手数据开发面试SQL题：取窗口内排名第一和排名倒数第一的作为两个字段输出

目录问题描述样例数据表 sales 解决方案第三步：使用条件聚合将多行合并为单行输出" 步骤1：计算排名的中间结果中间结果输出：步骤2：最终查询（处理并列情况）最终输出结果：关键点解释： RANK() OVER (PARTITION BY group_id ORDER BY amount DESC)：…

阅读更多...

第十六届蓝桥杯国赛（2025）C/C++B组蓝桥星数字独家解析

这题我中午是12点以后开始做的，只剩下1个小时了，12点50的时候完成了框架，但是细节总是实现不对，现在晚上来复盘的时候才把这题A出来了。但是，就像高考的导数你整个思路都会，你死在了求导上。。。&#xf…

阅读更多...

Google 的 Protocol Buffers 介绍

Protocol Buffers（简称 Protobuf）是由 Google 开发的一种高效、灵活、跨语言的数据序列化协议，广泛用于网络通信、分布式系统、持久化存储等场景。一、什么是 Protocol Buffers？ Protocol Buffers 是一种结构化的数据交换格式，类似于 XML 和 JSON，但更小、更快、更简单…

阅读更多...

最新文章