文章目录

  • 🏳️‍🌈 1. 导入模块
  • 🏳️‍🌈 2. Pandas数据处理
    • 2.1 读取数据
    • 2.2 数据信息
    • 2.3 数据去重
    • 2.4 数据去空
    • 2.5 时间处理
    • 2.6 性别处理
    • 2.7 评论内容处理
  • 🏳️‍🌈 3. Pyecharts数据可视化
    • 3.1 用户评论IP分布
    • 3.2 话题点赞热度趋势
    • 3.3 话题评论热度趋势
    • 3.4 各个时间段评论数量
    • 3.5 评论点赞量分布
    • 3.6 舆论情感分布
    • 3.7 用户性别占比
    • 3.8 用户性别占比
  • 🏳️‍🌈 4. 可视化项目源码+数据

大家好,我是 👉 【Python当打之年(点击跳转)】

本期我们利用Python分析「微博泡泡玛特热搜评论数据集」,看看:各用户评论IP地图分布、话题点赞热度趋势、话题评论热度趋势、各个时间段评论数量、舆论情感分布、用户性别占比、评论内容词云等等,希望对大家有所帮助,如有疑问或者需要改进的地方可以联系小编。

在这里插入图片描述

涉及到的库:

  • Pandas— 数据处理
  • Pyecharts— 数据可视化

🏳️‍🌈 1. 导入模块

import jieba
import pandas as pd
from snownlp import SnowNLP
from pyecharts.charts import *
from pyecharts import options as opts
import warnings
warnings.filterwarnings('ignore')

🏳️‍🌈 2. Pandas数据处理

2.1 读取数据

df = pd.read_excel('微博泡泡玛特数据.xlsx')

在这里插入图片描述

2.2 数据信息

df.info()

在这里插入图片描述

2.3 数据去重

df1 = df.drop_duplicates()

2.4 数据去空

df1 = df1.dropna()

2.5 时间处理

df1['发布时间_s'] = df1['时间'].str[:10]
df1['时间_d'] = pd.to_datetime(df1['时间']).dt.day
df1['时间_h'] = pd.to_datetime(df1['时间']).dt.hour

2.6 性别处理

df1['性别'] = df1['性别'].replace({'f':'女性','m':'男性'})

2.7 评论内容处理

score = []
for comm in comments:s = SnowNLP(comm)score.append(round(s.sentiments,4))
df1['情感评分'] = score
df1['情感评分区间'] = pd.cut(df1['情感评分'],bins=[0,0.3,0.7,1],labels=['消极','中性','积极'])

在这里插入图片描述

🏳️‍🌈 3. Pyecharts数据可视化

3.1 用户评论IP分布

def get_chart():chart = (Map().add('', data, 'china').set_global_opts(title_opts=opts.TitleOpts(title='1-用户评论IP分布',subtitle=subtitle,pos_top='2%',pos_left='center',title_textstyle_opts=opts.TextStyleOpts(font_size=20)),visualmap_opts=opts.VisualMapOpts(is_show=True,pos_left='15%',pos_bottom='10%',range_color=range_color),legend_opts=opts.LegendOpts(is_show=False)))

在这里插入图片描述

  • 东部地区评论数量要明显高于中西部地区,沿海地区更为明显,也从侧面反映了当地的经济情况。

3.2 话题点赞热度趋势

在这里插入图片描述

  • 话题热度在06-08当天最高,后续持续下降,符合一般的舆情趋势。

3.3 话题评论热度趋势

def get_chart():chart = (Line().add_xaxis(x_data).add_yaxis('', y_data).set_colors(range_color[1]).set_global_opts(title_opts=opts.TitleOpts(title='3-话题评论热度趋势',subtitle=subtitle,pos_top='2%',pos_left='center',title_textstyle_opts=opts.TextStyleOpts(font_size=20)),legend_opts=opts.LegendOpts(is_show=False)))

在这里插入图片描述

3.4 各个时间段评论数量

在这里插入图片描述

  • 从评论时间上来看,在晚上的19:00-21:00期间评论量达到顶峰,其他时间较平缓,在早上的07:00-09:00出现次高峰,这个时间也是上班高峰时间。

3.5 评论点赞量分布

def get_chart():chart = (Scatter().add_xaxis(x_data).add_yaxis('', y_data,label_opts=opts.LabelOpts(is_show=False)).set_global_opts(title_opts=opts.TitleOpts(title='5-评论点赞量分布',subtitle=subtitle,pos_top='2%',pos_left='center',title_textstyle_opts=opts.TextStyleOpts(font_size=20)),visualmap_opts=opts.VisualMapOpts(is_show=False,range_color=range_color),legend_opts=opts.LegendOpts(is_show=False)))

在这里插入图片描述

3.6 舆论情感分布

在这里插入图片描述

  • 舆情方面在,大众的积极情绪占比还是最多的,但是和中性情绪相差不是很明显,说明正向反向舆情存在一定波动。

3.7 用户性别占比

def get_chart():chart = (Pie().add('',datas,center=['50%', '50%'],).set_global_opts(title_opts=opts.TitleOpts(title='7-用户性别占比',subtitle=subtitle,pos_top='2%',pos_left='center',title_textstyle_opts=opts.TextStyleOpts(font_size=20)),legend_opts=opts.LegendOpts(is_show=True,pos_top='12%')))

在这里插入图片描述

  • 用户性别占比,男女基本持平,说明此舆情和性别关系不大。

3.8 用户性别占比

def get_chart():chart = (WordCloud().add('', words, word_size_range=[20, 50]).set_global_opts(title_opts=opts.TitleOpts(title='8-评论内容词云',pos_top='2%', pos_left='center',title_textstyle_opts=opts.TextStyleOpts(font_size=20)),visualmap_opts=opts.VisualMapOpts(is_show=False,range_color=range_color),))

在这里插入图片描述

🏳️‍🌈 4. 可视化项目源码+数据

点击跳转:【全部可视化项目源码+数据】


以上就是本期为大家整理的全部内容了,赶快练习起来吧,原创不易,喜欢的朋友可以点赞、收藏也可以分享注明出处)让更多人知道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/909891.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/909891.shtml
英文地址,请注明出处:http://en.pswp.cn/news/909891.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python-最长无重复子数组

最长无重复子数组 描述代码实现 描述 给定一个长度为n的数组arr,返回arr的最长无重复元素子数组的长度,无重复指的是所有数字都不相同。 子数组是连续的,比如[1,3,5,7,9]的子数组有[1,3],[3,5,7]等等,但是[1,3,7]不是…

探索 MySQL 缓存机制:提升数据库读取性能的有效策略

在现代应用中,数据库的读取性能是影响用户体验和系统响应速度的关键因素。当应用程序面临高并发读请求时,直接访问磁盘的开销会成为瓶颈。为了应对这一挑战,MySQL 引入了多种缓存机制,旨在减少磁盘 I/O,加快数据检索速度。 理解并合理利用这些缓存机制,是提升 MySQL 数据…

深度学习-164-MCP技术之开发本地MCP服务器和异步客户端

文章目录 1 概念1.1 MCP1.2 准备数据接口2 开发MCP服务器2.1 server.py2.1.1 @mcp.resource2.1.2 @mcp.tool()2.1.3 @mcp.prompt()2.2 调试模式启动mcp-server2.2.1 资源2.2.2 工具2.2.3 提示词3 开发MCP客户端3.1 调用工具client_tool3.2 获取提示client_prompt3.3 读取资源cl…

第八十一篇 大数据开发基础:队列数据结构详解与实战应用(附生活化案例)

在大数据开发的庞大体系中,队列(Queue) 作为基础数据结构之一,其重要性不言而喻。它不仅是构建高效数据管道的核心组件,更是实现异步处理、流量削峰、任务调度的关键技术。本文将深入解析队列的原理,结合生…

linux操作命令(最常用)

一、文件与目录操作 命令作用常用参数示例ls列出目录内容ls -l(详细列表) ls -a(显示隐藏文件)cd切换目录cd ~(回家目录) cd ..(返回上级)pwd显示当前路径-cp复制文件/目录cp -r di…

22.react和next.js、SSR与CSR的比较

SSR 和 CSR 的区别 🔸 示例说明 SSR 流程(Next.js 支持): 1. 用户请求页面 2. 服务端生成 HTML(含内容) 3. 浏览器收到渲染好的页面 // SSR 页面(默认行为) - app/page.tsx export…

全栈加速:FrankenPHP 架构原理与实战案例

在当今云原生与微服务大行其道的时代,PHP 应用面临着「冷启动延迟高」「进程管理复杂」「性能瓶颈难以突破」等痛点。 FrankenPHP 正是为了解决这些问题而生:它将 Caddy 服务器与 PHP 运行时深度融合,内嵌 Let’s Encrypt 自动 HTTPS、支持 …

Android开发中的适配

目录 一:分辨率适配 1.1概念 1.2关键策略 二:多尺寸适配 2.1概念 2.2关键策略 三:多平台多版本适配 3.1Android系统版本迭代 3.2 关键策略 Android开发中的屏幕适配与多版本适配 在Android开发中,屏幕适配和多版本适配是确保应用在各种设备上都能良好运行和显示的关键。这不…

【MySQL基础篇】MySQL中的算术运算符和比较运算符

精选专栏链接 🔗 MySQL技术笔记专栏Redis技术笔记专栏大模型搭建专栏Python学习笔记专栏深度学习算法专栏 欢迎订阅,点赞+关注,每日精进1%,共攀技术高峰 更多内容持续更新中!希望能给大家带来帮助~ &…

FFmpeg推流实战30秒速成

FFmpeg windows 7.1.1下载地址 FFmpeg 推流方法 FFmpeg 是一个强大的多媒体处理工具,支持将视频和音频推流到各种流媒体服务器(如 RTMP、RTSP、HLS 等)。以下是几种常见的推流方法。 推流到 RTMP 服务器 RTMP(Real-Time Messa…

74HC595功能介绍及代码驱动

一、引脚描述 QA~QH(15,1~7脚):数据输出引脚 QH1(9脚):移位寄存器串行数据输出脚,当移位寄存器中的数据多余8位时,最先进入的那位被挤出去,一般级联使用,接下一个74HC595 G(13脚):输出使能引脚,低电平使能 RCK(12脚):存储寄存器输入数据使能引脚,上升沿时…

AntV G 入门教程

下面是 AntV G(以下简称 G)的中文入门与核心 API 教程,涵盖从画布创建、图形绘制到事件与动画等常用方法,每个 API 均附带完整示例代码。示例引用自官方“Getting Started”指南 ([g.antv.antgroup.com][1])。 一、安装与引入 #…

短视频矩阵什么意思?

短视频矩阵是指通过布局多个短视频账号,形成协同运营的账号体系,以实现流量聚合、品牌曝光或商业变现的策略。其核心逻辑是利用不同账号的定位、内容风格或受众群体,构建互补的流量网络,而非单一账号的独立运营。 核心特点与作用&…

Linux 日志查看和分析

Linux 日志是系统运行状态的重要记录,包含了系统启动、服务运行、用户操作、安全事件等关键信息,对于故障排查、安全审计和系统维护至关重要。 故障排查:定位系统崩溃、服务异常的根本原因(如服务启动失败、硬件故障)…

一篇文章快速学会HTML

一篇文章快速学会HTML 注:适合有一定编程基础的来快速掌握HTML 超文本标记语言 超文本:文本,声音,图片,视频,表格,链接 标记:许多的标签组成 HTML页面是运行到浏览器上的 HTML…

智能混合检索DeepSearch

智能混合检索 DeepSearch 是一款自主研发的大规模分布式搜索引擎,提供一站式智能搜索解决方案。系统内置多种行业专属的查询语义理解能力,融合语义 ORC 模型、文本向量模型、图像/视频向量模型、大语言模型(LLM)、分词器以及机器学…

【Docker基础】Docker镜像管理:docker tag详解

目录 1 Docker镜像标签基础概念 1.1 什么是Docker镜像标签 1.2 镜像标识的三要素 2 docker tag命令详解 2.1 命令基本语法 2.2 命令工作原理 2.3 常用操作示例 3 标签管理的实践示例 3.1 标签命名规范 3.2 多标签策略 3.3 latest标签的合理使用 4 标签与镜像仓库的…

AI时代个人IP的重塑与机遇 | 创客匠人

2025年作为AI应用爆发元年,正悄然改写个人IP的打造逻辑。AI不会取代IP,却会淘汰不懂得与AI共生的创作者。 AI重构IP运营的三大机遇 内容生产效率提升:传统模式下需2-3天打磨的深度文章,AI输入关键词后半小时即可完成初稿&#xf…

[5-03-01].第14节:集群搭建 - 在Linux系统中搭建

SpringCloud学习大纲 三、集群环境搭建: 3.1.集群规划 1.nacos规划: hadoop103hadoop104hadoop105192.168.148.3192.168.148.4192.168.148.5nacosnacosnacos 2.MYSQL规划 :192.168.148.3 3306 5.7.27

ESP32-CH3+MicroPython+INMP441 测试麦克风通过音量阈值控制小灯

测试功能描述: 程序会先测量 2 秒环境音量作为基准,然后开始实时显示音量柱状图,并在 30 秒后自动结束,当检测到音量超过阈值时会显示提示并打开led灯 一,硬件准备: 1.ESP32 CH3 USB开发板1块 2.INMP44…