目录

一、语言中的词汇

1、词的形态学

2、词的词性

二、词语规范化

1、词语切分

2、词形还原

3、词干提取

三、中文分词

1、概述

2、基于最大匹配的中文分词

3、基于线性链条件随机场的中文分词

4、基于感知器的中文分词

词序列预测

模型参数学习

特征定义

5、基于双向长短期记忆网络的中文分词

6、中文分词评价方法

7、中文分词语料库

四、词性标注

1、基于规则的词性标注

2、基于隐马尔可夫模型的词性标注

3、基于卷积神经网络的词性标注

4、词性标注评价方法

5、词性标注语料库​


        自然语言处理算法中词通常也是基本单元,词的处理也是自然语言处理中重要的底层任务,是句法分析、文本分类、语言型等任务的基础。

一、语言中的词汇

         词(word)是形式和意义相结合的单位,也是语言中能够独立运用的最小单位掌握一个词汇意味着知道其读音和语义。

1、词的形态学

·       词的形式具有服从于某种规则的内在结构。研究单词的内部结构和其构成方式的学科称为形态学(Morphology),又称构词学。

2、词的词性

二、词语规范化

        词语规范化(Word Normalization)任务是将单词或词形转化为标准形式,针对有多种形式的单词使用一种单一的形式进行表示。

        词语切分是前提,为词形还原和词干提取提供处理对象;词形还原和词干提取则是词语规范化的核心手段,目的都是将同一单词的不同形式统一为更简洁的表示

1、词语切分

        将连续的文本序列按照一定规则分割成有意义的词语单元。例如:中文句子 “我爱自然语言处理” 经切分后为 “我 / 爱 / 自然 / 语言 / 处理”

        word 是语言自然存在的表意单位,而 token 是为了计算需求对文本进行切分后的最小单元。token 可以是一个完整的 word,也可以是 word 的一部分(如子词、字符序列)

2、词形还原

        将单词的各种变形形式(如时态、语态、单复数、词性变化等)还原为其基本形式(即 “词根” 或 “原型”),且还原后的形式需是语言中实际存在的合法单词。

  • 动词 “running”“ran” 还原为原型 “run”;
  • 名词 “mice” 还原为原型 “mouse”;
  • 形容词 “better” 还原为原型 “good”。

3、词干提取

        指通过去除单词的词缀(如前缀、后缀)等方式,提取出单词的核心部分(即 “词干”),但词干可能并非语言中实际存在的完整单词。最简单的词干提取算法可以通过查询词表的方法获得
另外一种方法是后缀剥离(Suffix-stripping),通过定义一组规则,将特定的后缀从词形中删除

  • “running”“runner” 去除后缀 “-ing”“-er” 后,词干为 “run”;
  • “happiness” 去除后缀 “-ness” 后,词干为 “happi”(非完整单词

三、中文分词

1、概述

        中文分词(Chinese Word Segmentation,CWS)是指将连续字序列转换为对应的词序列的过程,也可以看做在输入的序列中添加空格或其他边界标记的过程。

   主要困难来自以下三个方面:分词规范、歧义切分和未登录词【生词】识别。

2、基于最大匹配的中文分词

        最大匹配(Maximum Matching)分词算法,核心思想是 “从词典中找出最长的词来匹配当前文本片段”,通过贪心策略确定词边界。主要包含前向最大匹配、后向最大匹配以及双向最大匹配等三类。

3、基于线性链条件随机场的中文分词

  • 先给每个字贴标签,再按标签切分

        将分词过程转换为对字的分类问题,对于输入句子中的每一个字c;,根据它在分词结果中的位置赋予不同的标签。

怎么让机器准确地给每个字贴 B/I/E/S 标签?线性链条件随机场(CRF)就是干这个的 “聪明工具”。给每个字贴标签时,不会只看单个字,而是会看这个字本身的特点、看上下文的关系、遵守标签之间的 “规矩”

  • 如何学习的呢?
  1. 用 BIES 标签将分词转化为序列标注;
  2. 设计转移特征(约束标签合法性)和状态特征(捕捉汉字与标签的关联);
  3. 通过训练学习特征权重,使模型符合语言规律;
  4. 用 Viterbi 算法快速找到最优标签序列,实现分词。

4、基于感知器的中文分词


  • 词序列预测

  • 模型参数学习

  • 特征定义

5、基于双向长短期记忆网络的中文分词

        核心是利用神经网络自动学习汉字的上下文特征,将分词转化为序列标注任务

        BiLSTM 是 LSTM(长短期记忆网络)的双向扩展,能同时捕捉文本的 “左→右” 和 “右→左” 上下文信息

6、中文分词评价方法

        中文分词的评价核心是衡量 “系统切分结果” 与 “人工标注的标准答案(gold standard)” 的一致性,常用指标包括准确率、召回率、F1 值,辅以其他辅助指标。

7、中文分词语料库

分词语料库是人工标注了正确词边界的中文文本集合,是训练和评价分词模型的基础.

公开语料库:PKU、MSR 等可通过学术平台(如 LDC、SIGHAN 官网)免费获取

四、词性标注

        词性是词语的基本属性,根据其在句子中所扮演的语法角色以及与周围词的关系进
行分类
。词性标注(Part-of-speech Tagging,POs Tagging)是指在给定的语境中确定句子中各词的词性。

        词性标注的主要难点在于歧义性,即一个词可能在不同的上下文中具有不同的词性。也没有一个被广泛认可的统一词性划分标准。

1、基于规则的词性标注

利用词典和搭配规则针对词语和上下文进行分析,从而得到句子中每个词语词性。

例如:补丁规则“NN VB   PREV-TAG TO”表示,如果一个单词被标注为了NN(名词并且它前面的单词标注为了TO(不定式“to”),那么将这个单词的词性转换为VB(动词)

2、基于隐马尔可夫模型的词性标注

3、基于卷积神经网络的词性标注

 输入层:词嵌入(Word Embedding)

卷积层:提取局部上下文特征 

池化层:聚合局部特征 

全连接层与输出层:预测词性标签

4、词性标注评价方法

5、词性标注语料库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/92038.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/92038.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/92038.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kafka ISR机制和Raft区别:副本数优化的秘密

Kafka的ISR机制和像Raft这样的传统基于Quorum(法定人数)的协议之间的区别确实很微妙,但也非常重要。让我们来分析一下为什么ISR可以减少所需的副本数量。在采用ISR模型和(f1)个副本数的配置下,一个Kafka分区…

新手向:GitCode疑难问题诊疗

Git疑难问题诊疗引言在软件开发过程中,版本控制系统(VCS)是不可或缺的工具,而Git以其分布式架构、强大的分支管理能力和高效的性能成为行业标准。然而,随着项目复杂度的提升,Git的使用也可能遇到各种疑难问…

电子电气架构 ---如何焕新升级为 48V 电气架构

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…

JavaScript判断数字方法

在JavaScript中,判断一个值是否为数字有多种场景,以下是常见方法及适用情况:1. 严格判断数字类型(排除NaN)使用 typeof 结合 !isNaN(),确保值是 number 类型且非 NaN:javascriptfunction isNumb…

C++编程之旅-- -- --始探门庭的求知漫溯(二)

目录引用内联函数(C11)auto关键字基于范围的for循环指针空值---nullptr引用 引用:指将变量以另一个名称来展现的。它并非是一个新变量而是一个别名,它们同指一块内存空间。就如古时那些有字的人,亦或者是周树人,你说鲁迅是不是周树人呢&…

wordpress网站的“管理员邮箱地址”有什么用?

在WordPress网站的“设置”-“常规”中设置的“管理员邮箱地址”有多种用途,以下是详细介绍: 一、用户注册相关 密码找回功能 当网站用户忘记密码时,他们会通过点击登录页面上的“忘记密码”链接来重置密码。WordPress系统会向管理员邮箱地…

202506 电子学会青少年等级考试机器人六级实际操作真题

更多内容和历年真题请查看网站:【试卷中心 -----> 电子学会 ----> 机器人技术 ----> 六级】 网站链接 青少年软件编程历年真题模拟题实时更新 202506 青少年等级考试机器人实操真题六级 一、实际操作 1. 主题:姿态传感器交互步进电机左右…

Centos 安装 redis

1.下载redis,这个自己去网上找吧。2.上传文件,redis-7.4.1.tar.gz3.解压:执行 tar -xf redis-7.4.1.tar.gz在进行安装之前,检查一下有没有make、gcc、python3、没有的话全部 yum install。安装完之后,如果报一下错误&a…

算法训练营DAY55 第十一章:图论part05

并查集理论基础 背景 当我们需要判断两个元素是否在同一个集合里的时候,我们就要想到用并查集。 并查集主要有两个功能: 将两个元素添加到一个集合中。判断两个元素在不在同一个集合 原理讲解 从代码层面,我们如何将两个元素添加到同一个…

docker相关操作记录

1.docker清理服务器上面没有用到的镜像#删除本地镜像 docker rmi $(docker images -q) #强制删除本地镜像 docker rmi $(docker images -q) -f2.docker查看日志docker logs c36c56e4cfa3 (容器id)3.所有运行或没有运行的镜像 docker ps -a4、停止container,这样才…

LInux基础学习笔记七

/dev/zero和/dev/null 是什么/dev/zero:一个零设备文件,读取时会不断返回\0字节(零值字节),常用于创建空文件或格式化/dev/null:一个空设备文件,写入它的内容会被丢弃,相当于“黑洞”…

软件架构:系统结构的顶层设计与战略约束

软件架构:系统结构的顶层设计与战略约束软件架构是软件系统的“骨架”与“宪法”,它定义了系统的根本性组织结构,包括构成系统的关键构件、它们之间的组织关系、交互机制、约束原则以及指导性决策。它决定了系统在性能、可扩展性、可靠性、可…

基于spring boot的个人博客系统

2 开发技术 3 2.1 VUE框架 3 2.2 Mysql数据库 3 2.3 Spring Boot框架 3 2.4 layui介绍 4 本程序在设计结构选择上首选B/S,也是为了满足程序今后升级便利,以及程序低维护成本的要求。本程序的网络拓扑设计也会在下图展示,通过图形的方式来描述…

Excel制作尖刀图,直观展示业绩涨跌

Excel制作尖刀图,直观展示业绩涨跌效果展示下图是一个常见的两年业绩同比表,也是尖刀图很常见的数据源类型,但是这个数据格式是无法直接制作的,需要对数据进行加工。1.对数据进行逆透视使用excel进行逆透视,最常见的方…

两种路由模式(React-Router 8)

俩种路由模式 各个主流框架的路由常用的路由模式有俩种,history模式和hash模式,ReactRouter分别由createBrowerRouter和createHashRouter函数负责创建附带代码:import Login from "../page/Login"; import Article from "../page/Article"; imp…

【01】OpenCV C++实战篇——基于多项式插值的亚像素边缘定位算法

文章目录一. 背景二. 你的经历三. 代码实现(龟速版——单线程)3.1 梯度幅值3.1.1 生成 8 个方向模板3.1.2 计算梯度3.1.3 显示梯度图像3.1.4 程序运行演示3.2 梯度方向 (梯度最大幅度值和方向)3.3 单像素边缘3.4 梯度单像素边缘提取 运行测试四 、亚像素…

400V降24V,200mA,应用领域:从生活到工业的 “全能电源管家”WD5208

WD5208 电源芯片:小身材蕴藏大能量的电源控制新星在电源芯片的技术星河中,WD5208 凭借独特性能与广泛适用性崭露头角,成为众多电子设备电源方案的优选。本文将全面解析这款芯片的核心优势、应用场景与技术细节,展现其 “小身材&am…

C++ 引用 和 指针 的区别

特性引用指针初始化不能为 null,必须绑定到有效的对象可以为 null,不指向任何对象重新绑定不能重新绑定,一旦初始化后始终引用同一个对象可以重新指向其他对象内存占用不占用额外内存,编译器通常将其优化为所引用的对象占用额外内…

Claude Code实战体验:AI智能编程助手如何重塑开发工作流?

一、背景介绍 AI大模型的爆发,让各种智能编码工具如雨后春笋般涌现。Claude Code就是其中非常有代表性的一款——它不仅能补全代码、查找Bug,还能理解复杂需求,甚至帮你写文档、生成测试用例。作为一名全栈开发者,我和团队最近几个…

centos7 个人网站搭建之gitlab私有化部署实现线上发布

文章目录 效果展示架构设计申请免费阿里云服务器尝试连接远程服务 开放端口申请域名 绑定云服务器组网网关服务器配置转发代理网关服务器配置ssl 证书问题排查证书申请时报错:Set the \server_name\ directive ti use the Nginx installer. gitlab私有化部署搭建git…