一、分词
1、分词介绍
-
概念
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程。例如:
Python传智教育是一家上市公司,旗下有黑马程序员品牌。我是在黑马这里学习人工智能 ['传智', '教育', '是', '一家', '上市公司', ',', '旗下', '有', '黑马', '程序员', '品牌', '。', '我', '是', '在', '黑马', '这里', '学习', '人工智能']
-
作用
- 预处理:分词是文本处理的第一步,能够将文本分解成有意义的单元,为后续的分析提供基础。
- 理解结构:分词有助于理解句子的基本构成和含义,尤其是在做文本分类、情感分析等任务时,分词是不可缺少的一步。
-
常用的中文分词工具包括Jieba、THULAC、HanLP等。
2、Jieba分词工具
Jieba(”结巴”)是一个开源的Python中文分词组件,它支持精确模式、全模式和搜索引擎模式三种分词模式。
Jieba的主要特点:
- 支持多种分词模式:精确模式、全模式和搜索引擎模式,满足不同场景的需求。
- 支持自定义词典:用户可以添加自定义的词语,提高分词准确率。
- 支持词性标注:可以为每个词语标注词性,例如名词、动词等。
- 支持关键词提取:可以提取文本中的关键词。
- 支持并行分词:可以利用多核处理器加速分词。
- 简单易用:API 简单明了,易于上手。
- 开源免费:任何人都可以免费使用。
Jieba的安装:
Bash
pip install jieba -i https://pypi.mirrors.ustc.edu.cn/simple/
Jieba的基本使用:
-
精确模式分词:试图将句子最精确地切分开,适合文本分析。
Pythonimport jieba content = "传智教育是一家上市公司,旗下有黑马程序员品牌。我是在黑马这里学习人工智能" # 精确模型:试图将句子最精确地切开,适合文本分析。也属于默认模式 jieba.cut(sentence=content, cut_all=False) # cut_all默认为False # 将返回一个生成器对象 <generator object Tokenizer.cut at 0x7f8d9053e650> # 若需直接返回列表内容, 使用jieba.lcut即可 jieba.lcut(sentence=content, cut_all=False) ['传智', '教育', '是', '一家', '上市公司', ',', '旗下', '有', '黑马', '程序员', '品牌', '。', '我', '是', '在', '黑马', '这里', '学习', '人工智能']
-
全模式分词: