【1】引言

前序学习进程中,已经学习CountVectorizer文本处理的简单技巧,先相关文章链接为:

python学智能算法(十四)|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试-CSDN博客

此次继续深入,研究多文本的综合处理。

【2】代码测试

首先相对于单文本测试,直接将文本改成多行文本:

# 引入必要的模块
from sklearn.feature_extraction.text import CountVectorizer# 单个文档
document = ["Python programming is fun and useful for data science.","Python is a great programming language for data science.","Data science uses Python for machine learning and AI.","AI and machine learning are fun with Python.","AI is popular at this time."]# 创建向量化器
vectorizer = CountVectorizer()
print('vetorizer=', vectorizer)
# 拟合并转换文档
X = vectorizer.fit_transform(document)
print('X=', X)
# 查看词汇表
print("词汇表:\n", vectorizer.get_feature_names_out())# 查看向量表示
print("向量表示:\n", X.toarray())

 尝试运行一下:

X=   (0, 14)    1
  (0, 13)    1
  (0, 8)    1
  (0, 6)    1
  (0, 1)    1
  (0, 18)    1
  (0, 5)    1
  (0, 4)    1
  (0, 15)    1
  (1, 14)    1
  (1, 13)    1
  (1, 8)    1
  (1, 5)    1
  (1, 4)    1
  (1, 15)    1
  (1, 7)    1
  (1, 9)    1
  (2, 14)    1
  (2, 1)    1
  (2, 5)    1
  (2, 4)    1
  (2, 15)    1
  (2, 19)    1
  (2, 11)    1
  (2, 10)    1
  (2, 0)    1
  (3, 14)    1
  (3, 6)    1
  (3, 1)    1
  (3, 11)    1
  (3, 10)    1
  (3, 0)    1
  (3, 2)    1
  (3, 20)    1
  (4, 8)    1
  (4, 0)    1
  (4, 12)    1
  (4, 3)    1
  (4, 16)    1
  (4, 17)    1
词汇表:
 ['ai' 'and' 'are' 'at' 'data' 'for' 'fun' 'great' 'is' 'language'
 'learning' 'machine' 'popular' 'programming' 'python' 'science' 'this'
 'time' 'useful' 'uses' 'with']
向量表示:
 [[0 1 0 0 1 1 1 0 1 0 0 0 0 1 1 1 0 0 1 0 0]
 [0 0 0 0 1 1 0 1 1 1 0 0 0 1 1 1 0 0 0 0 0]
 [1 1 0 0 1 1 0 0 0 0 1 1 0 0 1 1 0 0 0 1 0]
 [1 1 1 0 0 0 1 0 0 0 1 1 0 0 1 0 0 0 0 0 1]
 [1 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 1 0 0 0]] 

最开始的X出现“(0,14),1”解读:

0表示(Python programming is fun and useful for data science.)是第0行样本,实际上从1开始计数是第1行样本;

14表示样本中的第一个词,也就是Python,在按照所有文本中所有单词首字母顺序排列后,将位于第14号位置,实际上从1开始计数是第15个,后面的1表示Python这个词在第0行样本中出现了一次。

其余数据意义类似。

输出的词汇表是将所有文本中所有单词首字母顺序排列后获得的结果。

向量表示则按照行的形式,将每一行的列数都扩充或者说是广播到所有文本中所有单词合并同类项后的数量,所有单词合并同类项后刚好是17个数据,所以每一行都有17个数据,在对应行样本中未出现的词就会自动计数0。

【3】总结

使用CountVectorizer开展了多文简单测试。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/85605.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/85605.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/85605.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AiPy 监控视频智能监察:人像一键抽取+可反复执行程序落地

兄弟们,不知道你们有没有过查监控的经历,虽然现在监控摄像头是越来越多,硬盘越塞越满,但真出了事儿,回放查录像堪比大海捞针!纯人工一帧帧的去找,能把眼睛盯瞎还是人影都找不到。不过我最近搞了…

期货反向跟单-终止盘手合作原则(二)

在期货反向跟单的领域中,数据就是实打实的真金白银,是策略能否持续盈利的核心价值所在。然而,许多团队在实际运营过程中,都遭遇了相似的困境:期初策略运转良好,可随着时间推移,数据表现却每况愈…

【Unity】MiniGame编辑器小游戏(三)马赛克【Mosaic】

更新日期:2025年6月17日。 项目源码:后续章节发布 索引 马赛克【Mosaic】一、游戏最终效果二、玩法简介三、正式开始1.定义游戏窗口类2.规划游戏窗口、视口区域3.地图方块阵列①.定义方块结构体②.生成方块阵列③.计算九宫格黑色方块数量④.排除任意九宫…

基于深度学习的智能图像质量评估系统:技术与实践

前言 在数字图像处理和计算机视觉领域,图像质量评估(Image Quality Assessment, IQA)是一个重要的研究方向。图像质量评估的目标是通过算法自动评估图像的质量,包括清晰度、对比度、噪声水平等。传统的图像质量评估方法主要依赖于…

【Golang面试题】Go语言实现请求频率限制

Go语言实现请求频率限制:从计数器到令牌桶的完整指南 在实际开发中,接口被恶意刷请求是常见问题。本文将深入探讨Go语言中四种主流的请求限流方案,从简单到复杂逐步深入,助你构建高可用服务。 一、基础方案:计数器法…

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记

本文摘自 Founder Park AI 产品如何做增长,ElevenLabs的案例很值得学习。 专注于 AI 语音生成的独角兽企业 ElevenLabs 可以说一直在高速增长。在今年 1 月完成 1.8 亿美元 C 轮融资后,ElevenLabs 的估值突破 30 亿,直指 33 亿美元。2024 年…

Linux 命令:grep

概述 在Linux系统里,grep是一款十分实用的命令行工具,它主要用于在文件或者输入流中搜索符合特定模式的文本。下面为你详细介绍它的用法。资料已经分类整理好:https://pan.quark.cn/s/26d73f7dd8a7 基本语法 grep [选项] 搜索模式 [文件..…

Java八股文——MySQL「架构篇」

MySQL主从复制了解吗 面试官您好,我了解MySQL的主从复制。它是构建高可用、高可扩展数据库架构的核心基石。 1. 主从复制的核心原理与流程 整个主从复制的过程,就是一场围绕 binlog(二进制日志) 的“接力赛”。这个过程主要可以…

ubuntu下python版本升级导致pyqt不能正常运行解决

最终解决方案 ubuntu下多python版本pyqt兼容性问题解决 python3.9 -m pip install --upgrade --force-reinstall --prefer-binary pyqt5)尝试解决方案一(失败) 系统默认python版本可以,其他版本不行 sudo apt install pyqt5-dev-tools尝试解决方案二(失败) 一直…

AIGC工具平台-VideoRetalking音频对口型数字人

唇形合成技术正逐渐成为AIGC内容生产领域的重要工具,能够实现音视频数据的高度融合。基于VideoRetalking模块的可视化界面降低了技术门槛,使非技术背景的用户也能便捷体验唇形驱动数字人合成的流程。 本文重点解析该模块的使用方式及开发流程&#xff0…

前端项目如何部署为https

如何为项目部署设置HTTPS 设置HTTPS是保护网站数据传输安全的重要步骤。以下是设置HTTPS的主要方法: 1. 获取SSL/TLS证书 免费证书选项 Let’s Encrypt:最流行的免费证书颁发机构Cloudflare:提供免费SSL和CDN服务ZeroSSL:另一…

nginx 配置 系统升级页面

默认80端口配置如下: server {listen 80; # 指定端口号server_name 192.168.2.96; # 替换为实际域名或IP# 全局重定向到升级页面(排除自身防循环)if ($request_uri !~* "/upgrade.html") {return 307 /upgrade.html; # 临时重定…

计算机基础(一)——设计模式

一、设计模式 设计模式(Design Patterns)是软件开发中反复出现问题的解决方案的通用描述。 它是经过总结、提炼的高效代码结构和设计方案,帮助开发者写出更灵活、可维护和可扩展的代码。 优点注意点规范代码结构,提高开发效率设…

Mac电脑 磁盘检测和监控工具 DriveDx

DriveDx Mac 一款不监视驱动器的内置S.M.A.R.T.状态的先进驱动器运行状况诊断和监测工具。 还分析了所有驱动器健康密切相关的指标, SSD或硬盘驱动器故障(像SSD磨损 /耐久性,坏扇区重新分配,离线坏道,未定扇形区&…

频繁操作Json嵌套数据PostgreSQL配合JSON操作工具类+sql

文章目录 1.工具类2.依赖3.sql 本文档只是为了留档方便以后工作运维,或者给同事分享文档内容比较简陋命令也不是特别全,不适合小白观看,如有不懂可以私信,上班期间都是在得 背景:因为频繁操作json嵌套数据 PostgreSQL得…

京东云 centos vim有操作混乱的问题

centos云服务器 安装micro编辑器可以解决 yum install micro

限流系列之二:TDMQ CKafka 版限流方案详解及最佳实践

导语 在当今大数据和实时通信的时代,消息队列在分布式系统中扮演着至关重要的角色。CKafka 作为一种高性能、高可靠的消息中间件,被广泛应用于各种业务场景中。然而,随着业务的增长和数据流量的增加,CKafka 在生产者和消费者以极…

消息队列的基本概念

文章目录 为什么需要消息队列?🤔🎯 核心价值📋 使用场景 🏗️ 架构层面的基本概念整体架构图📦 核心组件详解1. Broker(消息代理)2. Topic(主题)3. Partition…

Shell脚本中和||语法解析

https://www.cnblogs.com/liuyuelinfighting/p/16377705.html 在 Shell 脚本中,&& 和 || 是逻辑操作符,用于根据前一个命令的退出状态(成功或失败)决定是否执行后续命令。这种语法称为 命令链(Command Chainin…

MySQL中的常见运算符

精选专栏链接 🔗 MySQL技术笔记专栏Redis技术笔记专栏大模型搭建专栏Python学习笔记专栏深度学习算法专栏 欢迎订阅,点赞+关注,每日精进1%,共攀技术高峰 更多内容持续更新中!希望能给大家带来帮助~ &…