本文展示如何用 Python 脚本:

  • 批量读取文件夹中的多篇中文文档;

  • jieba 分词并统计词频(过滤停用词与单字符);

  • 将各文档词频输出为对应 Excel 文件;

  • 是文本分析、内容审查、报告编写中的实用技巧。


📂 Step 1:批量加载文件夹中文本文件路径

import ospath = '主要业务'
files = [os.path.join(path, f) for f in os.listdir(path)]
  • 使用标准库 os.listdir() 枚举目录中的文件;

  • 生成包含所有待处理文件路径的列表,便于后续遍历读取。


🔤 Step 2:分词 + 词频统计 + 停用词过滤

import jiebafor file in files:txt = open(file, "r", encoding="utf-8").read()words = jieba.lcut(txt)freq = {}for w in words:if len(w) == 1:continuefreq[w] = freq.get(w, 0) + 1stopWords = ["2019", "主要", "企业", "业务", "公司", "产品", "..."]for w in stopWords:freq.pop(w, None)items = sorted(freq.items(), key=lambda x: x[1], reverse=True)
  • 使用 jieba.lcut() 精准分词,是中文文本处理常用方案 pankti0919.medium.com+2thedataschool.co.uk+2stackoverflow.com+2gist.github.com+5breezegeography.wordpress.com+5m.php.cn+5;

  • 自定义长度过滤与停用词列表,保障高频词的质量。


📈 Step 3:导出词频结果至 Excel

import pandas as pddf = pd.DataFrame(items, columns=['词', '次数'])
basename = os.path.splitext(os.path.basename(file))[0]
df.to_excel(f"词频/{basename}.xlsx", index=False)
  • pandas.DataFrame 存储词频词典并导出;

  • stopWords 列表作用类似英文文本中的停用词过滤,使结果更有价值 stackoverflow.com。


🖼️ 结果展示区

✅ 技术亮点与优化建议

  • jieba 分词:适合中文分词处理 pankti0919.medium.com+1thedataschool.co.uk+1;

  • 词频排序:按次数降序排列,可配合 Counter 简化统计 m.php.cn+3stackoverflow.com+3gist.github.com+3;

  • 停用词机制:过滤不具有语义价值的常见词,结果更精炼;

  • 可扩展性

    • 可增加 jieba.analyse.extract_tags() 提取关键词与 tf-idf pankti0919.medium.com+2m.php.cn+2breezegeography.wordpress.com+2;

    • 加入 HTML 或 GUI 操作;

    • 将结果写入数据库或绘制词云图;


📝 总结

通过这个小脚本,你可以高效:

  • 批处理多个文本文件;

  • 自动清洗文本,统计高频词;

  • 导出 Excel 结果,用于报告、分析或展示。

 更多实用案例,代码,素材如下:

自取链接:https://pan.quark.cn/s/a46f30accea2

如果你希望下一步集成词云生成、分组对比分析,或英文与多语种混排文本处理,也可以继续告诉我,我可以为你定制更丰富的教程!

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/88193.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/88193.shtml
英文地址,请注明出处:http://en.pswp.cn/web/88193.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

共享打印机(详细操作+常见问题:需输入用户名密码、无法连接等)

文章目录一、设置打印机共享的准备工作二、Windows系统下打印机共享设置1. 启用主机打印机共享2. 客户端添加共享打印机三、我所遇到的问题及解决方法客户机遇到输入用户名、密码错误代码 0x0000011b一、错误代码 0x0000011b 的含义二、解决方法添加打印机没成功其他问题此次打…

在 Windows 系统上配置 [go-zero](https://go-zero.dev) 开发环境教程

💻 在 Windows 系统上配置 go-zero 开发环境教程 本教程将详细介绍如何在 Windows 系统上配置 go-zero 微服务框架的开发环境,包括依赖安装、路径配置、常见问题等。 🧱 一、前置环境安装 1. 安装 Go 下载地址:https://go.dev/…

开源=白嫖?

国内有一个非常浓重的思想,开源,开源就是免费,就是白嫖,就是不花钱,白给。那么什么是开源?“源代码”是软件中大多数计算机用户从未见过的部分;它是计算机程序员可以操纵的代码,以改变一个软件(…

2048-控制台版本

2048控制台版 文章目录2048控制台版实现效果:在这里插入图片描述库函数使用:初始化变量功能函数实现:状态判断函数int Judge();数字生成函数 bool CtreateNumber()打印游戏界面 void…

提取出Wallpaper Engine壁纸的mpkg类静态壁纸

github 地址 https://github.com/notscuffed/repkg先下载软件2853…26目录这样获取有的直接mp4格式,就不能用这方法准备好后 cmd 进入repkg目录 执行 repkg extract ./294...333/scene.pkg

AI健康小屋“15分钟服务圈”:如何重构社区健康生态?

AI健康小屋作为“15分钟服务圈”的核心载体,通过技术赋能与场景重构,正推动社区健康生态从被动治疗向主动预防、从单一服务向全周期管理转型。那我们应该如何重构社区健康生态呢?服务模式创新1.全时段覆盖AI健康小屋通过分时段服务满足不同群…

[netty5: WebSocketFrame]-源码分析

WebSocketFrame WebSocketFrame 是 Netty 中用于表示 WebSocket 消息帧的抽象基类,封装了帧的内容、分片标志和扩展位信息,供各类具体帧(如文本、二进制、控制帧)继承使用。 public abstract class WebSocketFrame extends Buffer…

【加解密与C】非对称加解密(三)ECC椭圆曲线

ECC椭圆曲线的基本概念椭圆曲线密码学(Elliptic Curve Cryptography,ECC)是一种基于椭圆曲线数学的公钥密码体制。与传统的RSA相比,ECC在相同安全级别下使用更短的密钥,计算效率更高,适用于资源受限的环境。…

力扣网编程150题:加油站(贪心解法)

一. 简介 前面一篇文章使用暴力解法来解决力扣网150 题目:加油站。文章如下: 力扣网编程150题:加油站(暴力解法)-CSDN博客 暴力解法就是遍历了所有元素作为起始点的可能,算法时间复杂度为 O(n*n)&#x…

windwos 设置redis长久密码不生效

1、设置长久密码redis.windows.conf 文件修改对应的设置密码2、启动时设置对应的加载配置文件

物联网(IoT)领域存在多种协议

物联网(IoT)领域存在多种协议,主要是因为不同的应用场景对通信的需求差异很大,包括实时性、带宽、功耗、设备兼容性、安全性等。以下从协议多样性的原因和你提到的具体协议(如 dc3-driver-* 模块)展开说明&…

二、encoders

文章目录一、batch_encoder (用于 BFV)1. 概述2. 数学原理3. 使用方法4. 代码示例二、ckks_encoder (用于 CKKS)在 1. bfv_basics.cpp 中,我们展示了如何使用BFV方案执行非常简单的计算。计算是在 plain_modulus 参数的模下执行的,并且 只使用了 BFV 明文…

数据一致性解决方案总结

数据一致性解决方案总结 我们在系统中,主要进行了数据冗余,那么就会带来数据一致性的问题。常见的数据一致性问题有:数据库主从同步延迟导致的读数据不一致;数据库主主之间数据的不一致;缓存和数据库之间的数据不一致。…

17.Spring Boot的Bean详解(新手版)

文章目录1. 什么是Bean?从零开始理解1.1 Bean的定义1.2 为什么需要Bean?1.3 Bean vs 普通对象的区别2. Spring容器:Bean的家2.1 什么是Spring容器?2.2 容器的工作流程3. Bean的声明方式详解3.1 使用Component及其专门化注解3.1.1 …

cherryStudio electron因为环境问题无法安装解决方法或打包失败解决方法

$env:ELECTRON_MIRROR"https://npmmirror.com/mirrors/electron/"; $env:ELECTRON_CUSTOM_DIR"{{ version }}"; yarn install1. 上面是关于electron安装失败的解决方法. 也可以通过到git上下面包,解压后,放到对应的目录下面,并把里面的build文件夹删除, b…

微服务架构中数据一致性保证机制深度解析

在微服务架构中,数据一致性是分布式系统设计的核心挑战。由于服务拆分后数据自治(每个服务独立数据库),跨服务操作的一致性保障需突破传统单体事务的局限。本文从一致性模型、核心解决方案、技术实现及面试高频问题四个维度&#…

【Gin】HTTP 请求调试器

文章目录 项目概述代码功能详解1. 导入必要的包2. 主函数和路由设置3. 请求信息捕获4. 请求参数和头信息5. 请求体处理5.1 JSON 数据处理5.2 表单数据处理5.3 Multipart 表单数据处理5.4 其他类型数据处理6. 构造响应对象7. 返回 JSON 响应功能特点使用场景完整代码项目概述 这…

物联网(IoT)领域的协议

物联网(IoT)领域的通信协议种类繁多,不同协议适用于不同的应用场景(如低功耗设备、工业自动化、家庭智能设备等)。以下是主要物联网协议的分类及详细解释:一、物联网协议分类物联网协议通常分为两大类&…

专题一_双指针_四数之和

一:题目解析 题目链接:18. 四数之和 - 力扣(LeetCode) 注:本题是在上题的基础上讲解的:专题一_双指针_三数之和-CSDN博客 解析:和三数之区别在于找四元组和为targe的数字 而不是0 二&#xff1a…

Spring Boot多数据源配置详解

Spring Boot多数据源配置详解 在实际企业开发中,随着业务复杂度提升,单一数据源已无法满足所有场景需求。比如:读写分离、分库分表、数据迁移、微服务整合等,这时就需要用到多数据源配置。本文将从原理、配置、常见问题和最佳实践…