本文介绍了一种基于Python的中文文本分析方法,用于从年报文件中提取含有关键词的语句。方法使用jieba分词库进行中文分词,通过自定义词典提高分词准确性。程序首先读取并预处理文本(统一标点符号、去除换行符),然后按句分割文本并进行分词处理,筛选出包含关键词的语句,最后将结果(股票代码、年份、关键词、语句长度及内容)保存至Excel。该方法适用于批量处理上市公司文本数据,为后续分析提供结构化数据支持。

import os
import pandas as pd
import jieba
import jieba.analyseitem=0 #保存到excel上的行号
fileList=os.listdir('finaltxt')#已提取完毕的txt年报文件目录
fileList.sort()#对年报按文件名进行排序
df=pd.DataFrame(columns=['code','year','sign','keyword','length','sentences'],index=range(1,50000))#预先设置列名,包括股票代码、年报年份、标记、提取出该句子所依据的关键词、文本字符长度、句子,创建50000行的空表,行数可自行估计设定
Dict=['','','']#自行录入关键词词典,注意是英文符号for i in Dict:jieba.add_word(i)# 向jieba内加入这些词语,防止被拆分   
for index,i in enumerate(fileList):  name=i[:-4].split('_')#根据txt文件名称进行切分,例如文件名为873833_2023-12-31.txt,name[0]为873833,name[1]为2023-12-31with open('finaltxt\\'+i,'r',encoding='utf-8') as f: text=f.read()text=text.replace('\n','')#删除换行符text=text.replace(';','。')#将分号统一换成句号textList=text.split('。') #按句号分割#遍历每一句话,进行分词和语句提取for i in textList:words=jieba.lcut(i)for word in words:if word in Dict:#如果识别到有分词结果在关键词词典里,就录入信息#向df里录入信息df['code'][item]=name[0]df['year'][item]=name[1][:4]df['keyword'][item]=worddf['length'][item]=len(i)df['sentences'][item]=iitem+=1breakelse:continuef.close()       print(str(index)+'完成')
df.to_excel('result.xlsx')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/909869.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/909869.shtml
英文地址,请注明出处:http://en.pswp.cn/news/909869.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小白畅通Linux之旅-----DHCP服务项目实战

目录 一、项目拓扑 二、项目要求 三、项目准备 DHCP服务器 1、下载dhcp服务 2、准备 1.txt 文件 (为内部客户机设置为固定获得ip) 3、准备2.txt文件 (为内部网络分配ip) 4、准备 3.txt 文件(为外部网络配置ip&…

eps转pdf-2025年6月18日星期三

1.打开cmd。 使用 cd 命令切换到包含 EPS 文件的目录。例如,如果 EPS 文件在 E:\eps_files 目录下,输入以下命令: cd E:\eps_files 2. 转换单个 EPS 文件: 输入以下命令将单个 EPS 文件转换为 PDF 文件 epstopdf input.eps …

处理器特性有哪些?

处理器特性有哪些? 处理器的特性可以从多个维度进行划分,包括架构设计、性能指标、功能支持等。以下是处理器的主要特性分类及详细说明: 1. 架构特性 指令集架构(ISA) CISC(复杂指令集,如x86&…

Vue3+TypeScript 导入枚举(Enum)最佳实践

在 Vue 3 TypeScript 项目中,导入枚举时通常不需要使用 import type,但具体取决于使用场景。以下是详细说明: 1. 枚举的特殊性 枚举在 TypeScript 中既是类型(Type)也是值(Value)&#xff1a…

主成分分析(PCA)例题——给定协方差矩阵

向量 x x x的相关矩阵为 R x [ 0.3 0.1 0.1 0.1 0.3 − 0.1 0.1 − 0.1 0.3 ] {\bm R}_x \begin{bmatrix} 0.3 & 0.1 & 0.1 \\ 0.1 & 0.3 & -0.1 \\ 0.1 & -0.1 & 0.3 \end{bmatrix} Rx​ ​0.30.10.1​0.10.3−0.1​0.1−0.10.3​ ​ 计算输入向量…

RTSP播放器低延迟实践:一次对毫秒级响应的技术探索

✅ 为什么说“大牛直播SDK的RTSP播放器延迟表现行业领先”: 1. 毫秒级延迟(100ms~250ms) windows平台rtsp播放器延迟测试 在业内常见的 RTSP 播放器中,传统开源方案(如 VLC、FFmpeg 播放器封装)延迟普遍在…

【postgresql中timestamp为6是什么意思?】

postgresql中timestamp为6是什么意思? postgresql中timestamp为6是什么意思?示例注意事项 postgresql中timestamp为6是什么意思? 在 PostgreSQL 中,TIMESTAMP 类型用于存储日期和时间信息。当你提到 TIMESTAMP(6),这里…

EC2实例(Amazon Linux 2023)监控磁盘读写速度和I/O负载

在viewer端进行日志分析的时候,由于日志比较大,每个4.5G,一共9个viewer端,对应9个日志文件,而且判断音频帧和视频帧是否卡顿时,需要的样本也很多,各15000行,分析完成需要5分20秒左右…

SpringBoot电脑商城项目--收获地址列表

1. 收获地址列表展示-持久层 1.1 sql语句 1.2 AddressMapper接口编写抽象方法 /*** 根据用户id查询用户的收货地址数据* param uid* return*/List<Address> findByUid(Integer uid); 1.3 在xml文件中进行sql映射 <!-- DESC降序 --><select id"fin…

学校住宿缴费系统h5-——东方仙盟——仙盟创梦IDE

代码: <div class"form-group"><h4 style"color: #006400; margin-bottom: 15px;">费用明细 <input name"room_unit_price" id"room_unit_price" type"number" value"" style"width:65px;…

docker 目录更改,必须做数据迁移才能启动

要修改 Docker 镜像的存储位置 并迁移数据&#xff08;如从 /var/lib/docker 迁移到 /mnt/data/docker&#xff09;&#xff0c;需要以下步骤&#xff1a; 1. 停止 Docker 服务 在修改配置和迁移数据前&#xff0c;先停止 Docker 服务&#xff1a; sudo systemctl stop docke…

根据图片理解maven

maven 是一款强大的项目管理与构建工具&#xff0c;在 Java 开发中尤为常用&#xff0c;结合这张图&#xff0c;从核心功能、仓库体系、工作流程三方面快速了解&#xff1a; 一、核心作用 项目构建&#xff1a;自动完成编译、测试、打包、部署等流程&#xff08;比如把 .java…

阿里云中间件:解锁云端应用的强大引擎

走进阿里云中间件 在云计算的宏大版图中&#xff0c;阿里云无疑是一位举足轻重的参与者。而阿里云中间件&#xff0c;作为阿里云服务体系的关键构成部分&#xff0c;在整个云计算架构里扮演着不可或缺的角色&#xff0c;宛如一座桥梁&#xff0c;紧密地连接着底层基础设施与上…

windows下FFmpeg精简

1. 安装MSYS2和必要工具 下载并安装MSYS2打开 MSYS2中的 MinGW 64-bit 终端更新系统包&#xff1a; pacman -Syu # 如果提示关闭终端&#xff0c;关闭后重新打开再次运行&#xff1a; pacman -Su装编译工具链&#xff1a; pacman -S --needed base-devel mingw-w64-x86_64-t…

WPF数据绑定疑惑解答--(关于控件的Itemsource,Collection绑定)

1. ListView绑定的数据类型问题 在 MainWindow 的构造函数中绑定 List11.ItemsSource List<string> rpcListnew List<string>(); public MainWindow() {InitializeComponent();// 确保 List11 的 ItemsSource 已经绑定到 rpcListList11.ItemsSource rpcList; } …

【Centos7安装Cloudera Manager5.12、CDH5.12详细步骤】

安装Cloudera Manager&#xff08;5.12.1&#xff09;一定要细心&#xff0c;每一步走错都可能造成最终安装失败。 安装Cloudera Manager&#xff08;5.12.1&#xff09;一定要硬件资源充足。 本示例参考了众多网上资料&#xff08;放在文末&#xff09;&#xff0c;消耗了1000…

青少年编程与数学 01-011 系统软件简介 25 Web服务器及代理软件

青少年编程与数学 01-011 系统软件简介 25 Web服务器及代理软件 一、Web 服务器软件&#xff08;一&#xff09;定义与功能&#xff08;二&#xff09;历史与主要产品1. Apache HTTP Server2. Nginx3. Microsoft Internet Information Services&#xff08;IIS&#xff09;4. L…

Vue的隐形魔法:虚拟DOM和Diff算法如何让页面飞起来?

大家好&#xff0c;我是江城开朗的豌豆&#xff0c;一名拥有6年以上前端开发经验的工程师。我精通HTML、CSS、JavaScript等基础前端技术&#xff0c;并深入掌握Vue、React、Uniapp、Flutter等主流框架&#xff0c;能够高效解决各类前端开发问题。在我的技术栈中&#xff0c;除了…

SAP_HANA常用sql合集——持续更新中

一、时间格式转换 (1)切换日期格式yyyymmdd的字段数据为yyyy-mm-dd select TO_VARCHAR(TO_DATE(t1.time1, YYYYMMDD), YYYY-MM-DD) AS time1, TO_VARCHAR(TO_DATE(t1.time2, YYYYMMDD), YYYY-MM-DD) AS time2 from table

【AI Study】第四天,Pandas(5)- 数据可视化

文章概要 本文详细介绍 Pandas 的数据可视化功能&#xff0c;包括&#xff1a; 基础绘图高级可视化统计图表实际应用示例 基础绘图 折线图 # 基本折线图 df.plot(x日期, y值) df.plot.line(x日期, y值)# 多列折线图 df.plot(x日期, y[列1, 列2])# 自定义样式 df.plot(x日期…