本文精读NRC Canada与NYU联合发表的经典综述《A survey of named entity recognition and classification》,解析NERC技术演进脉络与核心方法论

一、为什么命名实体识别(NER)如此重要?

命名实体识别(Named Entity Recognition and Classification, NERC)是信息抽取的关键基石,旨在从文本中识别并分类刚性指示符(rigid designators),包括:

  • 经典三类:人名(PER)、地名(LOC)、组织名(ORG)

  • 扩展类型:时间表达式(TIME)、货币值(MONEY)、生物医学实体(蛋白质/基因)等

  • 开放领域:200+细粒度类型(博物馆、河流、品牌等)

应用场景贯穿互联网核心业务:

二、技术演进:从规则模板到统计学习

1. 规则驱动时代(1991-1996)

  • 代表工作:Lisa Rau (1991) 公司名识别系统

  • 核心技术:手工编写正则规则+启发式模板

# 伪代码示例:早期LOC识别规则
if word.endswith("市") or word.endswith("省"): tag_as(LOCATION)
if word in ["公司","集团"] and is_capitalized(prev_word):tag_as(ORGANIZATION)

2. 机器学习崛起(1996-2006)

方法代表论文F1提升关键
HMM隐马尔可夫模型Bikel et al. (1997)序列标注建模
ME最大熵模型Borthwick (1998)特征概率联合估计
SVM支持向量机Asahara & Matsumoto (2003)高维特征空间分类
CRF条件随机场McCallum & Li (2003)当前主流,解决标记偏置

📌 关键转折点:MUC-6(1996)首次将NER列为独立评测任务,CONLL-2003推动统计方法普及

三、特征工程:NER系统的灵魂

论文揭示:特征设计比算法选择更重要(Tjong Kim Sang & De Meulder, 2003)

1. 词级别特征(Word-Level)

特征类型示例作用
大小写特征is_capitalizedALL_UPPER识别专有名词
数字模式\d{4} → 年份捕获时间/货币
词缀特征-ist(职业), -tech(公司)跨语言泛化能力
模式抽象"G.M." → "A.A"归一化变体表达

2. 词典特征(Gazetteers)

  • 通用词典:排除常见词干扰(e.g., "May"可能是月份也可能为人名)

  • 领域词典

    • 组织名线索:包含"Inc"/"Corp"等后缀

    • 地理名线索:包含"河"/"山"等关键字

  • 模糊匹配技术

    • 编辑距离(Edit Distance)

    • 语音编码(Soundex):"Smith"=S530"Smyth"=S530

3. 文档级特征

  • 共现特征:文档中多次出现的实体置信度更高

  • 指代消解"苹果公司" → "它" → "这家库比蒂诺的企业"

  • 元信息:Email发件人、新闻标题位置等

四、三大评估体系对比

通过案例解析不同评测标准(假设5个实体仅识别正确1个):

xml

<!-- 人工标注 -->
<PER>John Briggs Jr</PER> contacted <ORG>Wonderful Stockbrokers Inc</ORG> in <LOC>New York</LOC><!-- 系统输出 -->
<LOC>Unlike</LOC> Robert, <ORG>John Briggs Jr</ORG> contacted Wonderful <ORG>Stockbrokers</ORG> Inc...
评估协议计算方式本例得分特点
MUC分TYPE/TEXT轴部分匹配40% F1允许边界错误
CONLL严格完全匹配20% F1工业界常用
ACE加权错误代价(类型/边界/漏检)31.3%最复杂,军事/政府领域主流

💡 实践建议:医疗领域适合宽松匹配(如基因提及即可),金融领域需严格边界

五、语言与领域挑战

1. 多语言支持

  • 主流语言:英语、日语(MUC-6)、中文(Chen & Lee, 1996)

  • 低资源语言:巴斯克语、宿务语等通过跨语言迁移解决

2. 领域适应性

  • 新闻领域:F1可达90%+(MUC-7数据)

  • 迁移挑战:新闻→邮件领域性能下降20-40%(Poibeau & Kosseim, 2001)

  • 解决方案:领域自适应(Domain Adaptation)+ 半监督学习

六、突破性进展:半监督与无监督学习

1. 自举法(Bootstrapping)

  • 经典工作:Brin (1998) 从网页挖掘书名-作者对

  • 创新点:Collins & Singer (1999) 联合学习多个类型减少误报

2. 无监督方法

  • 分布相似性:Pasca et al. (2006) 用Lin相似性泛化模式"X was born in November" → "X was born in {March, October...}"

  • 跨文档关联:Shinyama & Sekine (2004) 利用新闻同步出现特征

七、对现代NLP的启示

  1. 特征工程永不落幕:BERT等预训练模型仍需拼接自定义特征(如正则匹配)

  2. 低资源学习路线:半监督方法在医疗/小语种场景仍不可替代

  3. 评估指标选择:严格场景用CONLL,宽松场景用ACE加权

🚀 2025年技术衔接

  • 论文中的CRF已被BERT-CRF架构取代

  • 无监督思想演进为自监督预训练

  • 细粒度实体识别(如200类)成为研究热点


参考文献
Nadeau D., Sekine S. (2006). A Survey of Named Entity Recognition and Classification. Linguisticae Investigationes

实用工具推荐

# 中文NLP工具包
pip install hanlp  # 支持实体识别与细粒度分类# 论文复现代码
git clone https://github.com/niderhoff/nlp-tutorials

欢迎关注我的专栏获取更多技术解析! 👉 #NER从入门到精通

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/89805.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/89805.shtml
英文地址,请注明出处:http://en.pswp.cn/web/89805.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

eNSP综合实验(DNCP、NAT、TELET、HTTP、DNS)

1搭建实验拓扑2实验目的学习掌握eNSP中的命令3实验步骤3.1配置连接PC和客户端的交换机(仅以右侧为例)[Huawei]vlan batch 10 20 #创建vlan Info: This operation may take a few seconds. Please wait for a moment...done. [Huawei]un in en [Huawei]interface e0/0/2 [Huawei…

无人系统与安防监控中的超低延迟直播技术应用:基于大牛直播SDK的实战分享

技术背景 在 无人机、机器人 以及 智能安防 等高要求行业&#xff0c;高清视频的超低延迟传输 正在成为影响系统性能与业务决策的重要因素。无论是工业生产线的远程巡检、突发事件的应急响应&#xff0c;还是高风险环境下的智能监控与远程控制&#xff0c;视频链路的传输延迟都…

go语言学习之包

概念&#xff1a;在Go 语言中&#xff0c;包由一个或多个保存在同一目录的源码文件组成&#xff0c;包名宇目录名无关&#xff0c;但是通常大家习惯包名和目录名保持一致&#xff0c;同一目录的源码文件必须使用相同的包名。包的用途类似于其他语言的命名空间&#xff0c;可以限…

pytorch学习笔记(五)-- 计算机视觉的迁移学习

系列文章目录 pytorch学习笔记&#xff08;一&#xff09;-- pytorch深度学习框架基本知识了解 pytorch学习笔记&#xff08;二&#xff09;-- pytorch模型开发步骤详解 pytorch学习笔记&#xff08;三&#xff09;-- TensorBoard的介绍 pytorch学习笔记&#xff08;四&…

数字IC后端培训教程之数字后端项目典型项目案例解析

数字IC后端低功耗设计实现案例分享(3个power domain&#xff0c;2个voltage domain) Q1: 电路如下图&#xff0c;clk是一个很慢的时钟test_clk&#xff08;属于DFT的)&#xff0c;DFF1与and 形成一个clock gating check。跑pr 发现&#xff0c;时钟树综合CTS阶段&#xff08;C…

2025 Data Whale x PyTorch 安装学习笔记(Windows 版)

一、Anaconda 的安装与基本操作 1. 安装 Anaconda/miniconda 官方链接&#xff1a;Anaconda | Individual Edition 根据系统版本选择合适的安装包下载并安装。 2. 检验安装 打开 “开始” 菜单&#xff0c;找到 “Anaconda Prompt”&#xff08;一般在 Anaconda3 文件夹…

mac OS上docker安装zookeeper

拉取镜像&#xff1a;$ docker pull zookeeper:3.5.7 3.5.7: Pulling from library/zookeeper 3.5.7: Pulling from library/zookeeper 3.5.7: Pulling from library/zookeeper no matching manifest for linux/arm64/v8 in the manifest list entries报错&#xff1a;由于时M3…

设备通过4G网卡接入EasyCVR视频融合平台,出现无法播放的问题排查和解决

EasyCVR视频融合平台作为支持多协议接入、多设备集中管理的综合性视频解决方案&#xff0c;可实现各类终端设备的视频流汇聚与实时播放。近期收到用户反馈&#xff0c;在EasyCVR平台接入设备后出现视频流无法播放的情况。为帮助更多用户快速排查同类问题&#xff0c;现将具体处…

板凳-------Mysql cookbook学习 (十二--------3)

第二章 抽象数据类型和python类 2.5类定义实例&#xff1a; 学校人事管理系统中的类 import datetimeclass PersonValueError(ValueError):"""自定义异常类"""passclass PersonTypeError(TypeError):"""自定义异常类""…

css flex 布局中 flex-direction为column,如何让子元素的宽度根据内容自动变化

在 display: flex 且 flex-direction: column 的布局中&#xff0c;默认情况下子元素会占满容器的宽度。要让子元素的宽度根据内容自适应&#xff0c;而不是自动拉伸填满父容器&#xff0c;你可以这样处理&#xff1a;✅ 解决方案一&#xff1a;设置子元素 align-self: start 或…

性能优化实践:Modbus 在高并发场景下的吞吐量提升(二)

四、Modbus 吞吐量提升实战策略4.1 优化网络配置选择合适的网络硬件是提升 Modbus 通信性能的基础。在工业现场&#xff0c;应优先选用高性能的工业级交换机和路由器。工业级交换机具备更好的抗干扰能力和稳定性&#xff0c;其背板带宽和包转发率更高&#xff0c;能够满足高并发…

上传ipa到appstore的几种工具

无论是用原生开发也好&#xff0c;使用uniapp或flutter开发也好&#xff0c;最好打包好的APP是需要上架appstore的。而在app store connect上架的时候&#xff0c;需要上传ipa文件到app store的构建版本上。因此&#xff0c;需要上传工具。下面分析下几种上传工具的优缺点&…

数控调压BUCK电路 —— 基于TPS56637(TI)

0 前言 本文基于 TI 的 TPS56637 实现一个支持调压的 BUCK 电路&#xff0c;包含从零开始详细的 原理解析、原理图、PCB 及 实测数据 本文属于《DIY迷你数控电源》系列&#xff0c;本系列我们一起实现一个简单的迷你数控电源 我是 LNY&#xff0c;一个在对嵌入式的所有都感兴…

prometheus UI 和node_exporter节点图形化Grafana

prometheus UI 和node_exporter节点图形化Grafana 先简单的安装一下 进行时间的同步操作安装Prometheus之前必须要先安装ntp时间同步&#xff0c;因为prometheus server对系统时间的准确性要求很高&#xff0c;必须保证本机时间实时同步。# 用crontab进行定时的时间的同步 yum …

RabbitMQ—TTL、死信队列、延迟队列

上篇文章&#xff1a; RabbitMQ—消息可靠性保证https://blog.csdn.net/sniper_fandc/article/details/149311576?fromshareblogdetail&sharetypeblogdetail&sharerId149311576&sharereferPC&sharesourcesniper_fandc&sharefromfrom_link 目录 1 TTL …

LVS 集群技术详解与实战部署

目录 引言 一、实验环境准备 二、理论基础&#xff1a;集群与 LVS 核心原理 2.1 集群与分布式 2.2 LVS 核心原理 LVS 的 4 种工作模式 LVS 调度算法 三、LVS 部署工具&#xff1a;ipvsadm 命令详解 四、实战案例&#xff1a;LVS 部署详解 案例 1&#xff1a;NAT 模式…

前端vue3获取excel二进制流在页面展示

excel二进制流在页面展示安装xlsx在页面中定义一个div来展示html数据定义二进制流请求接口拿到数据并展示安装xlsx npm install xlsx import * as XLSX from xlsx;在页面中定义一个div来展示html数据 <div class"file-input" id"file-input" v-html&qu…

android 信息验证动画效果

layout_check_pro <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:id"id/parent"android:layout_width"wrap_content"android:layout_…

【iOS】继承链

文章目录前言什么是继承链OC中的根类关于NSProxy关键作用1.方法查找与动态绑定2. 消息转发3. **类型判断与多态**继承链的底层实现元类的继承链总结前言 在objective-c中&#xff0c;继承链是类与类之间通过父类&#xff08;Superclass&#xff09;关系形成的一层层继承结构&am…

论文阅读:Instruct BLIP (2023.5)

文章目录InstructBLIP&#xff1a;迈向通用视觉语言模型的指令微调研究总结一、研究背景与目标二、核心方法数据构建与划分模型架构训练策略三、实验结果零样本性能消融实验下游任务微调定性分析可视化结果展示四、结论与贡献InstructBLIP&#xff1a;迈向通用视觉语言模型的指…