一、 项目认识

背景:

        电商直播/短视频已积累大量「视频 + 评论」数据,蕴含了消费者的真实反馈。

目标:

        通过「商品识别 → 情感分析 → 评论聚类」三步,辅助品牌洞察、网红投放评估。

二、 Baseline 代码流程

1. 读取和预处理

video_data  = pd.read_csv("origin_videos_data.csv")
comments_data = pd.read_csv("origin_comments_data.csv")
video_data["text"] = video_desc + " " + video_tags  # 拼接文本

2. 商品识别

pipeline = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut, max_features=50),SGDClassifier()
)
pipeline.fit(labeled_text, labeled_product)
video_data["product_name"] = pipeline.predict(video_data["text"])

实现思路: TF-IDF + 线性分类器(SGD)做二分类

简化点:仅用了 50 个特征,无额外的清洗。

3. 意图分类(四个模型)

for col in ["sentiment_category", "user_scenario", "user_question", "user_suggestion"]:pipeline = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut), SGDClassifier())pipeline.fit(train_text, train_label)comments_data[col] = pipeline.predict(all_text)

4. 评论聚类  & 主题词抽取 (5个维度进行执行)

pipeline = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut), KMeans(n_clusters=2))
pipeline.fit(subset_text)
labels = pipeline.predict(subset_text)
top_words = (" ".join(前 10 重要词))  # 每簇
comments_data[target_theme_col] = [top_words[label] for label in labels]

大赛要求: 要求 5 - 8 个簇,目前项目仅用了 n_clusters = 2。 

调整策略:将 n_clusters 进行优化调整,让其等于 5-8 之间,进行优化。

5. 结果导出

video_data[["video_id", "product_name"]].to_csv("submit/submit_videos.csv", index=False)
comments_data[导出列].to_csv("submit/submit_comments.csv", index=False)
!zip -r submit.zip submit/

三、 技术分析

1. 分词 & 特征

jieba + TfidfVectorizer: 适配中英文及 emoji/特殊符号。

2. 商品识别

SGDClassifier: 快速迭代、可在线学习。

3. 意图分类

多个 SGDClassifier: 训练速度快,支持稀疏特征。

4. 聚类

KMeans: 易解释、效率高。

5. 主题词抽取

中心向量前 N 词: 简单直观。

四、Baseline 局限 & 提升方向

1. 文本预处理缺失:大小写、URL、表情、停用词均未处理。

2. 模型简单:全部采用线性/常规模型,难以捕捉深层语义。

3. 聚类数量不合规:固定 2 簇,势必影响 100 分聚类子任务。

4. 未利用多语言特性:数据包含中/英/日/韩等多语,分词器不统一。

5. 评价指标未在本地计算:无法提前验证得分。

五、学习收获

1. 端到端管线思维:一个 Notebook 覆盖读取→标注数据利用→预测→聚类→提交文件的完整链路,是参赛 Baseline 的典型范式。

2. 快速原型:Scikit-learn + jieba 几行代码即可跑通 baseline,利于早期验证。

3. 实验可重复:全部步骤在 Notebook 内显式记录,方便 debug / 复现。

4. 评测视角:先满足格式与流程正确,再逐步优化指标 —— 典型竞赛节奏。

5. 改进空间评估:通过阅读代码可迅速定位性能瓶颈,为后续升级指明方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/90923.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/90923.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/90923.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp中使用uView-plus踩坑记录

​​​1.使用插件市场安装点击到插件市场 零云uview-plus3.0重磅发布,全面的Vue3鸿蒙移动组件库。 - DCloud 插件市场 点击选择项目直接导入就可以,下载完成后会在uni_modules中,这个.gitignore中不可忽略 ​ 使用在main.js里引入 import…

openGauss数据库管理实战指南——基本常用操作总结

查看所有数据库 查看所有表 \d 查看函数定义 查看所有用户 select usename from pg_user; 1.数据库创建管理 CREATE DATABASE test; 2.数据库用户创建管理 CREATE USER tom PASSWORD Root123456.; 3.表的创建及管理 3.1.创建表 CREATE TABLE test(ID INTEGER PRIMARY …

智慧公安信息化建设解决方案PPT(63页)

智慧公安的定义与职能 智慧公安是利用现代信息技术提升公安工作效率与服务质量的新模式,涵盖刑事侦查、治安管理、交通管理等多方面职能,致力于保障社会安全与秩序。 智慧公安信息化建设的重要性 信息化建设是智慧公安发展的核心,通过数据…

k8s存储入门

目录 一、 Volume 的概念 二、 Volume 的类型 三、 通过 emptyDir 共享数据 1. EmptyDir 特性 2. EmptyDir 共享数据 四:使用 HostPath 挂载宿主机文件 1. HostPath 特性 2. 挂载宿主机时区文件 五、 挂载 NFS 至容器 1. 前置准备(所有 K8s 节…

基于 Flutter 的开源文本 TTS 朗读器(支持 Windows/macOS/Android)

界面特性 基于 Flutter 的文本 TTS 朗读器支持 Windows、macOS、AndroidTTS 源:OpenAI TTS、Microsoft TTS支持设置代理支持设置应用主题支持倍速支持书签支持点击指定地方朗读支持 txt、epub、贴粘文本支持从上次地方开始朗读 源代码https://github.com/xchenhao/t…

深入理解大语言模型:从核心技术到极简实现

零基础的读者建议先看《零基础理解大语言模型:从生活例子到代码实现》,本教程的完整代码可以在GitHub上找到,如果你有任何问题或建议,欢迎交流讨论。 引言 自ChatGPT横空出世以来,大语言模型(Large Langua…

7月13日日记

看来每天写一篇日记对我来说还是一个不小的挑战。主要是和惰性做抗争吧。但是这个东西说实话也没有什么难度,也并不占用时间,一篇日记大概十几分钟就可以写完。可能更多的是健忘。忘了每天有一个这样的小任务。忘了前几天日记写没写了,三下乡…

《Stata面板数据分析:数据检验、回归模型与诊断技术 - 以NLSW工资研究(公开数据)为例》

本教程旨在全面介绍使用 Stata 进行面板数据分析的方法和技巧。我们将以美国国家纵向调查(NLSW)的数据为例,系统地探讨从基础 OLS 回归到高级固定效应模型的分析过程。 NLSW 数据集是公开的,可以免费获取,这为读者提供了实践和复现的机会。 通过这个教程,您将掌握使用 …

【VSCode+LaTeX】科研写作环境搭建

文章目录0 引言为什么选择LaTeXVSCode?为什么不选择Overleaf?1 TeXLive安装1.1 下载安装包1.2 运行安装程序1.3 通过镜像安装2 VSCode安装与配置2.1 下载VSCode安装包2.2 安装VSCode2.3 安装中文语言包2.4 配置LaTeX核心扩展2.5 加载TeX模版文件2.6 编译…

Surfer软件入门与等值线绘制实操教程

本文还有配套的精品资源,点击获取 简介:本教程将指导初学者如何使用Surfer软件进行地质绘图,重点在于等值线的绘制技巧和提升图形质量。内容涵盖Surfer界面介绍、数据导入、等值线绘制方法、样式设置、地图增强技术以及输出保存方法&#…

攻防世界——Web题 very_easy_sql

目录 payload1 payload2 payload3 看到了题目是sql就猜测是sql注入和万能密码了,但怎么试貌似都没有反应,看源代码发现了use.php 访问use.php页面 可以猜测这里是SSRF,可以访问到我们本不能访问的界面,比如:服务器…

基于 SpringBoot 的 REST API 与 RPC 调用的统一封装

一、为何需要统一封装? 在讨论统一封装之前,我们先看看 REST 和 RPC 各自的适用场景。 REST API 基于 HTTP 协议,采用 JSON 作为数据交换格式,可读性好且跨语言,非常适合对外提供服务。 RPC(如 Dubbo、gRPC…

【SpringBoot】 整合MyBatis+Postgresql

MyBatis 是一个轻量级的持久化框架,用于简化数据库访问和操作。它通过将 SQL 语句与 Java 代码分离,允许开发者使用 XML 或注解来配置 SQL 语句,并将结果映射为 Java 对象。MyBatis 提供了灵活的 SQL 控制,适合需要精细控制 SQL 的…

无缝衔接直播流体验

文章目录前言🧠 1. 为什么能“无缝衔接”?🧰 2. Flutter 实现方案✅ 总体策略🎯 核心技术点✅ a. 使用全局播放器管理器(单例模式)✅ b. 广场页中的直播卡片使用播放器✅ c. 详情页复用控制器✅ d. 页面切换…

[论文阅读] 软件工程 | 首个德语软件工程情感分析黄金标准数据集:构建与价值解析

首个德语软件工程情感分析黄金标准数据集:构建与价值解析 论文标题:A German Gold-Standard Dataset for Sentiment Analysis in Software EngineeringarXiv:2507.07325 A German Gold-Standard Dataset for Sentiment Analysis in Software Engineering…

PyTorch编程实践:一文就入门的上手开发!

引言 PyTorch作为当今深度学习领域最流行的框架之一,以其动态计算图、直观的Python接口和强大的GPU加速能力,赢得了众多研究人员和工程师的青睐。本文将深入探讨PyTorch的编程实践,从基础概念到高级应用,帮助读者全面掌握这一强大…

关于学习docker中遇到的问题

Cannot connect to the Docker daemon at unix:///home/pc/.docker/desktop/docker.sock. Is the docker daemon running?如何配置新的路径 #运行这条命令,查看docker状态 sudo systemctl status docker如图所示表示监听路径不对,因此修改路径即可&…

无法打开windows安全中心解决方案

系统还原或重置:如果以上方法均无效,可尝试系统还原,使用之前创建的还原点恢复系统。或在设置中选择 “系统> 恢复 > 重置此电脑”,选择 “保留我的文件” 以避免数据丢失。创建新用户账户:按下 Win I 打开设置…

复习笔记 33

绪论 《幻术》 张叶蕾 我该怎么承认, 一切都是幻境。 函数的基本性质和无穷小量及其阶的比较 我感觉强化课我要跟上的话,我需要把基础,强化的讲义,还有练习册上面的所有题都刷烂。不然我感觉自己考 140 完全就是痴人说梦。搞笑呢。…

算法学习笔记:12.快速排序 ——从原理到实战,涵盖 LeetCode 与考研 408 例题

快速排序是计算机科学中最经典的排序算法之一,由 Tony Hoare 在 1960 年提出。它凭借平均时间复杂度 O (nlogn)、原地排序(空间复杂度 O (logn),主要来自递归栈)以及良好的实际性能,成为工业界处理大规模数据排序的首选…