文本分类、文本聚类

  • 基础库: pandas, sklearn
  • 功能: 商品识别、情感分析、评论聚类
  • 商品识别: 视频文本信息,预测推广商品名称 & 情感分析:四个维度(情感倾向、用户场景、用户疑问、用户建议)
    • jieba中文分词
    • TF-IDF, 文本转特征向量
    • SGDClassifier,分类预测
  • 评论聚类: 五个维度(正面、负面、用户场景、用户疑问、用户建议)
    • jieba 分词
    • TF-IDF 向量化
    • KMeans 聚类

重难点

目标:从文本中“提取“商业洞察

关键任务:文本编码、文本分类、文本聚类

  • 文本编码: 将人类可读文本转换为机器可理解的数值向量表示。
    • 独热编码(One-Hot Encoding): 将每个词表示为一个稀疏向量,向量中只有一个位置为1,其他位置为0。 适用于词汇量较小场景,但会产生高维稀疏向量,且无法捕捉词语间的语义关系。
    • 词嵌入(如Word2Vec、GloVe等静态词向量): 将词语映射到低纬度连续向量空间,相似词在向量空间中距离也相近。
    • 基于预训练模型上下文词嵌入(如BERT、GPT等动态词向量)
  • 文本分类:根据文本内容将其自动归类到预定义类别。
    • 基于规则和词典方法
    • 传统机器学习方法(如朴素贝叶斯、支持向量机SVM等)
    • 深度学习方法(如循环神经网络RNN、卷积神经网络CNN、Transformer等)
  • 文本聚类:根据文本内容的相似性将文本分组,无需预先定义类别。聚类评估指标通常用轮廓系数。
    • K-Means(需预设簇数K)
    • 层次聚类: 构建一个树状结构,可以直观地展示聚类过程。
    • DBSCAN: 基于密度的聚类算法,能够发现任意形状的簇,并且不需要预设聚类数量。
    • 轮廓系数:衡量聚类结果的紧密型和分离度。值越接近1表示聚类效果越好,越接近-1表示
  • 大语言模型(LLM)
    • 大模型零样本/少样本学习能力,针对于有限标注数据完成学习
    • 微调预训练模型
    • 使用预训练模型提供的API接口获取文本向量表示,用于后续分类或聚类。

要点

  • 分析文本特点,从机器学习角度提取特征和分类
  • 构建和对比文本分类和聚类算法,调整模型精度
  • 对比深度学习和大模型的应用场景,做少样本学习

难点

  • 数据量少,挑战模型泛化能力
  • 多任务协同,要求全链路解决方案

TF-IDF的局限性

  • 仅关注词语的频率和文档分布,无法捕捉词语的 上下文信息、语义相似性或多义词

K-Means的局限性

  • 基于距离的聚类算法,假设簇是凸形的且大小相近。无法很好地处理不规则形状的簇。

分类是一种有监督学习任务,聚类是一种无监督学习任务。

进阶

baseline优化方案

TF-IDF无法捕捉词语的上下文信息、语义相似性和多义词 => 使用BERT等上下文嵌入

聚类分析粗糙,未评估聚类质量

提示词引导优化

让AI帮助优化分析代码

评论聚类

  • 聚类没有标签知道,无法像监督学习那样通过损失函数明确优化目标。
  • 无监督场景中,噪声和真实数据点的界限不明确。

进阶尝试

  • K-Means的n_clusters统一设置到5,得分223.19596
n_clusters聚类效果说明
1所有样本被归一类没有分类意义
2只划分成两大类适合明确二分类的场景
3~5较常见的有效区间通常在这里找到肘部点
6~8更细致但可能过拟合适合样本本身确实有复杂结构的情况

参考链接

TfidfVectorizer

KMeans

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/88902.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/88902.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/88902.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Meetily后端框架] AI摘要结构化 | `SummaryResponse`模型 | Pydantic库 | vs marshmallow库

第3章:摘要数据结构(Pydantic库) 欢迎回来! 在之前的第2章:API文档中,我们知道API网关提供了端点 而API文档准确告诉我们如何与这些端点通信,包括需要发送的数据格式和期望接收的数据格式。 …

深度学习 tensor及其相关操作

目录 Tensor 概念 数据类型 创建tensor 基本创建方式 1、 torch.tensor() 2、torch.Tensor() 3、torch.IntTensor() 等 创建线性张量和随机张量 1、创建线性张量 2、创建随机张量 切换设备 类型转换 与 Numpy 数据转换 1、张量转 Numpy 2、Numpy 转张量 tenso…

如何将FPGA设计的验证效率提升1000倍以上(4)

本文为系列文章的完结篇。用户应用设计中的信号,在经历编译器的多次迭代优化之后,在FPGA芯片内部运行时,可能已经被重新命名、“改头换面”或“机里机气”。要想以人工经验进行追踪,构建目标寄存器信号与RTL设计源码之间的映射关系…

Linux驱动11 --- buildroot杂项驱动开发方法

目录 一、Buildroot 1.1介绍 文件系统 1.一个完整的操作系统需要包含大量的文件 2.在嵌入式开发中目前应用最广泛的文件系统制作工具就是 buildroot,busybox 3.buildroot 制作文件系统(了解) 二、杂项驱动编程 1.1 驱动编程做的内容 2.2…

Unity物理系统由浅入深第三节:物理引擎底层原理剖析

Unity物理系统由浅入深第一节:Unity 物理系统基础与应用 Unity物理系统由浅入深第二节:物理系统高级特性与优化 Unity物理系统由浅入深第三节:物理引擎底层原理剖析 Unity物理系统由浅入深第四节:物理约束求解与稳定性 Unity 物理…

Docker一键安装中间件(RocketMq、Nginx、MySql、Minio、Jenkins、Redis)脚步

1、Docker安装RocketMq 2、Docker安装Nginx 3、Docker安装MySql 4、Docker安装Minio 5、Docker安装jenkins 6、Docker安装Redis 1、Docker安装RocketMq #!/bin/bash# 定义变量 NAMESRV_CONTAINER"rocketmq-namesrv" BROKER_CONTAINER"rocketmq-broker&quo…

WPF学习笔记(27)科学计算器

科学计算器1. 前端界面2. 功能代码3. 效果展示1. 前端界面 <Window x:Class"Cal.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d"http:/…

【Linux系列】unzip file 命令

博客目录掌握 unzip -o 命令&#xff1a;高效解压并覆盖文件的完整指南一、unzip 命令基础二、-o 选项的核心作用三、典型应用场景四、与其他选项的组合使用五、注意事项与风险防范六、替代方案与高级技巧掌握 unzip -o 命令&#xff1a;高效解压并覆盖文件的完整指南 在日常的…

1965–2022年中国大陆高分辨率分部门用水数据集,包含:灌溉用水、工业制造用水、生活用水和火电冷却

1965–2022年中国大陆高分辨率部门用水数据集 高质量用水数据集对推进变化环境下的水资源研究至关重要。然而&#xff0c;现有中国用水数据通常按行政区划或流域汇总&#xff0c;时空分辨率不足&#xff0c;难以支撑人类用水模式及时空变化特征的精细化分析。为此&#xff0c;…

git中的指令解释

在 Git 的 diff 输出中&#xff0c;---、 和 ... 块的含义如下&#xff1a; 1. --- a/1.py 和 b/1.py --- a/1.py&#xff1a;表示旧版本的文件路径&#xff08;通常是工作目录或上一次提交的版本&#xff09;。 b/1.py&#xff1a;表示新版本的文件路径&#xff08;通常是暂存…

STM32实现四自由度机械臂(SG90舵机)多功能控制(软件篇freertos)

书接上回的硬件篇STM32控制四自由度机械臂&#xff08;SG90舵机&#xff09;&#xff08;硬件篇&#xff09;&#xff08;简单易复刻&#xff09;-CSDN博客 此时硬件平台已经搭建完毕&#xff0c;软件总共设计了三种模式&#xff0c;分别为 模式1&#xff1a;摇杆&蓝牙模…

docker常用命令集(2)

接前一篇文章&#xff1a;docker常用命令集&#xff08;1&#xff09; 本文内容参考&#xff1a; Docker build 命令 | 菜鸟教程 docker基础(二)之docker build-CSDN博客 Docker push 命令 | 菜鸟教程 Docker pull 命令 | 菜鸟教程 特此致谢&#xff01; 3. docker build …

舒尔特方格训练小游戏流量主微信小程序开源

功能特点 游戏核心功能&#xff1a; 随机生成55舒尔特方格 按顺序点击数字1-25 实时计时和尝试次数统计 错误点击反馈&#xff08;视觉和触觉&#xff09; 数据统计&#xff1a; 记录每次完成时间 保存历史最佳成绩 保存最近5次尝试记录 统计尝试次数&#xff08;错误点击&…

在Spring Boot 开发中 Bean 的声明和依赖注入最佳的组合方式是什么?

在Spring Boot 开发中&#xff0c;社区和 Spring 官方已经形成了一套非常明确的最佳实践。这个黄金组合就是&#xff1a; Bean 声明&#xff1a;使用构造型注解&#xff08;Stereotype Annotations&#xff09;&#xff0c;如 Service, Repository, Component 等。依赖注入&…

Oxygen XML Editor 26.0编辑器

Oxygen XML Editor 26.0编辑器 欢迎使用Oxygen XML Editor 26.0编辑器准备工作安装javajdk安装jdk验证Oxygen XML Editor 26.0安装欢迎使用Oxygen XML Editor 26.0编辑器 准备工作安装java Java官网下载地址:https://www.oracle.com/java/technologies/ Oxygen XML Editor 2…

AWS Lambda Container 方式部署 Flask 应用并通过 API Gateway 提供访问

前言 一年前写过一篇 Lambda 运行 Flask 应用的博文: https://lpwmm.blog.csdn.net/article/details/139756140 当时使用的是 ZIP 包方式部署应用代码, 对于简单的 API 开发用起来还是可以的, 但是如果需要集成到 CI/CD pipeline 里面就有点不太优雅. 本文将介绍使用容器方式…

React虚拟DOM的进化之路

引言 在Web前端开发中&#xff0c;用户交互的流畅性和页面性能一直是核心挑战。早期&#xff0c;开发者直接操作真实DOM&#xff08;Document Object Model&#xff09;时&#xff0c;频繁的重排&#xff08;reflow&#xff09;和重绘&#xff08;repaint&#xff09;导致性能…

(7)机器学习小白入门 YOLOv:机器学习模型训练详解

— (1)机器学习小白入门YOLOv &#xff1a;从概念到实践 (2)机器学习小白入门 YOLOv&#xff1a;从模块优化到工程部署 (3)机器学习小白入门 YOLOv&#xff1a; 解锁图片分类新技能 (4)机器学习小白入门YOLOv &#xff1a;图片标注实操手册 (5)机器学习小白入门 YOLOv&#xff…

初识MySQL(三)之主从配置与读写分离实战

主重复制 主重复制原理master开启二进制日志记录slave开启IO进程&#xff0c;从master中读取二进制日志并写入slave的中继日志slave开启SQL进程&#xff0c;从中继日志中读取二进制日志并进行重放最终&#xff0c;达到slave与master中数据一致的状态&#xff0c;我们称作为主从…

RabbitMQ面试精讲 Day 2:RabbitMQ工作模型与消息流转

【RabbitMQ面试精讲 Day 2】RabbitMQ工作模型与消息流转 开篇 欢迎来到"RabbitMQ面试精讲"系列的第2天&#xff0c;今天我们将深入探讨RabbitMQ的工作模型与消息流转机制。这是面试中最常被问到的核心知识点之一&#xff0c;90%的RabbitMQ面试都会涉及消息流转流程…