概述

        缩略词指的是一个词或者短语的缩略形式,其通常由原词中的一些组成部分构成,同时保持原词的含义。缩略词的检测与抽取在方法上与同义词的检测与抽取类似,但是相比同义词,缩略词在文本中出现的规则往往更简单。

        不同语言缩略词的形式不同。以表音文字(如拉丁语系)和表意文字(如中文)为例。拉丁语系的缩略词形式包括contractions(简称)、crasis(元音融合)、acronyms(首字母缩写)和initialisms(首字母缩写)。而表意文字的缩略形式相对复杂,并且在自然语言处理中依赖分词算法来对其词边界进行划分,其缩略形式往往是从每个词中选取一个或者多个字组成,剩下的那些字则直接省略。

例:

Doctor,I am --> Dr,I'm(英语)
De le,de les --> Du,des(法语)
中国中央电视台-->央视

缩略词的检测与抽取

        缩略词的检测及抽取方法以模式匹配为主,但是自动抽取出的结果常常包含大量噪声,为此需要利用统计信息结合各类机器学习方法来对抽取结果进行清洗。

基于文本模式的抽取

        最常用的方法,以同义词抽取中的规则很相似。X表示原词,Y表示缩略词,例:

X(Y)        Support vector machine(SVM)
X.*(Y)        Support vector machine for gression(SVM)
Y is the abbreviation of X        SVM is the abbreviation of Support vector machine

        通过编制复杂且精细的模式能保证基于模式匹配的缩略词抽取方法的准确率,但是召回率往往较低,并且枚举长尾模式也十分困难。此外,抽取仍然可能错误,需要对抽取结果进行清洗和筛选。

抽取结果的清洗和筛选

        主要分两种:利用数据集有关缩写的统计指标进行识别;使用机器学习模型构建二元分类模型来判断。前者使用的统计指标一般包含频率、卡方检验、互信息以及最大熵等,后者需要依赖认为设计的特征,特征除了包含前面的统计指标外,也包括文本特征。缩略词判定的文本特征主要包括字符匹配程度(缩略词中是否包含全称以外的词,缩略词与全称的编辑距离,缩略词与全称的长度差异,缩略词中的字在全称中的位置等)、词性特征两类。

枚举并剪枝

        针对中文缩略词提出的一种有效办法。首先穷举目标实体名称所有的子序列,即所有可能的缩略形式,进一步排除没有在文本中出现过的或者出现次数太少的候选缩略词。书上的一个例子:

缩略词的预测

        受限于语料大小,缩略词抽取的方法能获得大量缩略词对,但是对于新登录词往往效果较差。目前的一些相关研究着眼于分析缩略词的规则,自动习得缩略词形式并进行预测。

基于规则的方法

        大致分为两种:针对特性字符和词语形式的局部规则(基于词性、位置、词之间的相互关联);依赖语言环境的全局规则。

        缩略词问题涉及的很多规则往往是很复杂且难以被明确定义的,并且相关规则需要领域专家进行编写,成本高且泛化性差,一旦遇到规则之外的情况就难以处理,导致召回率很低。此外,可能出现在同一个全称适用多个匹配规则的情况,此时规则的选择或者融合往往十分困难。但总体上说,规则是可控、可解释的。

条件随机场

        绝大部分缩略词都由全称中包含的字符组成,并且字符间的顺序往往会保留。借助这一特性,可以将其转化为序列标注问题。条件随机场(CRF)是较早运用于进行缩略词生成的序列标注模型。

CRF极简引用

深度学习

        在神经网络方法中,词或字符被表示为一个低维稠密空间中的向量,借助于典型网络结构(CNN、RNN等)抽取字词之间的组合特征。深度神经网络往往能够取得更优异的性能,但是与神经网络的通病一样,可解释性差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/94053.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/94053.shtml
英文地址,请注明出处:http://en.pswp.cn/web/94053.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Lua脚本如何执行主程序的C函数

Lua Call C function Lua脚本可以和C函数灵活的结合,Lua脚本作为控制语言,使用C函数来做性能计算部分。 Lua脚本的执行器有Lua 和 Luajit。 使用Lua执行器,可以通过C语言注册C函数到Lua State, 然后Lua脚本可以调用该C函数。 使用Luajit&…

农业-学习记录

1-git上传(简易版)首先,记得vscode打开的项目路径是/home/Agribrain。不然会提示上传很多项目无关的文件。① 暂存所有更改②使用vscode终端注意:终端打开路径:/home/Agribrain/agribrain【git项目的所在目录】&#x…

什么是数据集成?数据集成对数据治理有什么影响

在大数据与人工智能驱动的时代,数据已经成为企业的“新型生产力”。然而,企业内部数据往往分散在不同系统、不同格式、甚至不同地域中。如果缺乏有效管理与整合,数据价值就无法真正释放。这时,“数据集成”应运而生,它…

技术成长战略是什么?

文章目录技术成长战略是什么?1. 前言2. 跟技术大牛学成长战略2.1 系统性能专家案例2.2 从开源到企业案例2.3 技术媒体大V案例2.4 案例小结3. 学习金字塔和刻意训练4. 战略思维的诞生5. 建议技术成长战略是什么? 1. 前言 在波波的微信技术交流群里头&am…

从0到1打造一台机器人走起来

聚焦仿人双足机器人,着重解决其下肢鲁棒行走中仿真到实机间隔(SimToReal gap)的误差问题 总述 硬件:采用傅利叶智能科技一体化关节模组: 1)胯部和膝关节选用 FSA80 - 29E 电机,以承受较大扭矩; 2)大腿部分采用 FSA60 - 43E 电机,兼顾扭矩和转速需求; 3)小腿选用 …

【Cmake】Cmake概览

目录 一.环境准备 1.1.Cmake安装 1.2. VSCodeCMake插件安装 1.3 快速样例-helloworld⼯程 二. cmake的基础命令⾏使用示例 2.1.文件准备 2.2.⽣成构建系统 2.3.编译连接 2.4.测试Ctest模块 2.5.测试安装模块 2.6.测试打包模块 2.7 查看帮助 CMake语法简洁清晰&…

概率核心概念学习笔记:随机事件与样本空间、古典概率与条件概率、全概率公式与贝叶斯公式

目录 一、 随机事件与样本空间 1. 原理讲解 2. 类型与关系 3. 案例计算 4. 应用场景 二、 古典概率与条件概率 1. 古典概率 (Classical Probability) 2. 条件概率 (Conditional Probability) 三、 全概率公式与贝叶斯公式 1. 全概率公式 (Law of Total Probability) …

优考试局域网系统V6.0.0版

优考试局域网系统迎来V6.0.0版本更新,核心在于提升功能性能与优化操作体验。重点对学情分析、移动端考试支持、考试监控和答题体验等方面进行了实用性更新,进一步提升了局域网环境下考试系统的灵活性与管理效率。 一、增加学情分析功能,教学…

Autosar之Com模块

Com模块主要实现了Signal在I-PDU中的封装及解析功能,为RTE层提供了基于Signal的发送与接收接口,实现了基于Signal的网关功能,实现了PDU的不同发送模式,以及Signal滤波,Update bit,Pdu Counter等功能 图 Com模块层次图 Com模块处于AUTOSAR架构中的通信服务层,其下层模块…

【iOS】NSRunLoop

目录 概念 RunLoop与线程的关系 Runloop对外的接口 CFRunLoopSourceRef Source0 Source1 CFRunLoopTimer CFRunLoopObserver RunLoop的Mode 应用场景 Runloop的内部逻辑 Runloop应用 tableView延迟加载图片,保证流畅 Timer不被ScrollView的滑动影响 A…

HTTP接口鉴权方式

几种主流且可行的HTTP接口鉴权方式,从简单到复杂,各有其适用场景。我将它们分为两大类:传统方式和现代方式。一、传统方式这类方式简单易用,但通常安全性较低或扩展性较差,适用于内部系统或简单API。1. HTTP Basic Aut…

DIC技术极端环境案例分享:系泊链在海水环境下氢脆化性能测试

实验结果的具体视频可详见以下链接:研索仪器DIC技术在极端条件下的应用 01 海水环境: DIC技术在海水环境下的应用核心挑战在于恶劣的光学条件(如散射、衰减、畸变)、严酷的化学/生物环境(腐蚀、生物污损)…

DL00291-联邦学习以去中心化锂离子电池健康预测模型完整实现

联邦学习在锂离子电池健康预测中的应用:去中心化训练与客户选择策略在锂离子电池健康预测领域,随着电池使用环境的多样化以及电池状态监测需求的不断增长,传统的集中式数据训练方法逐渐显现出局限性。为了解决数据隐私保护和大规模数据集中处…

TCP协议大全

什么是TCP?基本定义与属性TCP(传输控制协议)是传输层的重要协议,具有面向连接(传输前需先建立连接,是发送方和接收方的点对点一对一连接)、基于字节流(以字节流形式传输数据&#xf…

当硅基生命遇见碳基萌宠:Deepoc具身智能如何重新定义“宠物监护者”

在东京某高级公寓里,一只布偶猫正优雅地踱步到智能喂食器前。令人惊讶的是,这个通体雪白的喂食器突然"活"了过来——它微微倾斜身体,用柔和的机械音发出问候,同时伸出仿生机械臂轻轻抚过猫咪的背部。这不是科幻电影场景…

线上日志排查问题

1、查异常堆栈 显示该行及其后面的50行内容,然后通过 less 命令进行分页查看 grep -A 50 "NullPointerException" a.log | less参数解释: grep: 文本搜索命令-A 50: After 的意思,显示匹配行后面的50行“NullPointerException”: 要…

LabVIEW与CAN开发燃料电池监控

​基于 LabVIEW 与 CAN 总线技术,构建了一套多组质子交换膜燃料电池(PEMFC)堆监控系统。系统采用优质硬件设备,通过 LabVIEW 的图形化编程能力实现数据采集、实时监控与多堆切换控制,稳定可靠,为燃料电池性…

CVPR焦点 | 神经网络新范式:轻量化与精度并行,重塑视觉任务性能天花板

关注gongzhonghao【CVPR顶会精选】神经网络卷积想找新亮点?不妨考虑:动态结构设计。作为深度学习架构搜索与高效建模两大热点的结合,动态神经网络凭借自适应推理与高效特征利用的优势,在视觉识别、视频理解等任务中脱颖而出&#…

机器学习之集成算法学习

一、集成学习概述集成学习(ensemble learning)通过构建并结合多个个体学习器来完成学习任务,核心思想是 “集众家之长”—— 就像多个专家共同判断往往比单个专家更可靠。其关键在于如何生成多样化的个体学习器并设计有效的结合策略。结合策略…

Unreal Engine UE_LOG

Unreal🎮 Unreal Engine - UE_LOG📝 定义🏛 类/宏关联⚡ 关键特性🛠️ 常见配置📚 使用方法🔧 基础语法🔍 示例🪂 典型应用场景🔗 与其他组件对比⚠️ 常见问题与注意事项…