一、分词

1、分词介绍

概念
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程。

例如：
Python
```
传智教育是一家上市公司，旗下有黑马程序员品牌。我是在黑马这里学习人工智能

['传智', '教育', '是', '一家', '上市公司', '，', '旗下', '有', '黑马', '程序员', '品牌', '。', '我', '是', '在', '黑马', '这里', '学习', '人工智能']
```
作用
- 预处理：分词是文本处理的第一步，能够将文本分解成有意义的单元，为后续的分析提供基础。
- 理解结构：分词有助于理解句子的基本构成和含义，尤其是在做文本分类、情感分析等任务时，分词是不可缺少的一步。
常用的中文分词工具包括Jieba、THULAC、HanLP等。

2、Jieba分词工具

Jieba（”结巴”）是一个开源的Python中文分词组件，它支持精确模式、全模式和搜索引擎模式三种分词模式。

Jieba的主要特点：

支持多种分词模式：精确模式、全模式和搜索引擎模式，满足不同场景的需求。
支持自定义词典：用户可以添加自定义的词语，提高分词准确率。
支持词性标注：可以为每个词语标注词性，例如名词、动词等。
支持关键词提取：可以提取文本中的关键词。
支持并行分词：可以利用多核处理器加速分词。
简单易用：API 简单明了，易于上手。
开源免费：任何人都可以免费使用。

Jieba的安装:

Bash

pip install jieba -i https://pypi.mirrors.ustc.edu.cn/simple/

Jieba的基本使用：

精确模式分词：试图将句子最精确地切分开，适合文本分析。

Python

import jieba
content = "传智教育是一家上市公司，旗下有黑马程序员品牌。我是在黑马这里学习人工智能"
# 精确模型：试图将句子最精确地切开，适合文本分析。也属于默认模式
jieba.cut(sentence=content, cut_all=False)    # cut_all默认为False

# 将返回一个生成器对象
<generator object Tokenizer.cut at 0x7f8d9053e650>

# 若需直接返回列表内容, 使用jieba.lcut即可
jieba.lcut(sentence=content, cut_all=False)
['传智', '教育', '是', '一家', '上市公司', '，', '旗下', '有', '黑马', '程序员', '品牌', '。', '我', '是', '在', '黑马', '这里', '学习', '人工智能']