自然语言处理初期发展历程

早期:离散表示

        one-hot(只表达“有/无”,语义完全丢失)→ n-gram(局部上下文,但高维稀疏)→ TF-IDF(考虑词频与权重,但不能表达词关联),可见,缺点非常明显,达不到要求

过渡:分布式思想萌芽

       LSA等降维尝试,引入“词语义空间”思想,但非神经网络。
突破:神经网络分布式表示

NNLM(深度学习自动学语义嵌入,训练慢)
word2vec(极大提高训练效率与质量,催生“词嵌入”大潮流)

主流趋势

       低维、稠密、有语义的词向量成为自然语言理解基础,后续BERT等“上下文相关词向量”技术,是word2vec之后更高阶的语义学习。
       理念从“词级one-hot”→“全局加权”→“上下文分布”→“深度学习自学表示”。

小结

       one-hot、n-gram、TF-IDF:简单直观,但稀疏、高维、语义弱。
分布式表示、NNLM、word2vec:低维稠密,语义能力强,推动深度学习NLP大发展。
     从one-hot到word2vec,是NLP词表示从“人工特征”到“自动语义学习”的质变。

发展过程中,案例展示

一,one-hot

基本的语意:

对文本的表示:

优缺点:

二、TF-IDF

基础公式描述

公式表达: 

优缺点分析; 

三、N-gram

基础语法表达:

优缺点: 

语言模型: 

离散表示:

四、分布式

表示方法表示:

优缺点:

共现矩阵的表达方式

表达方式:

表达案例: 

优缺点: 

公式展现 

实现代码 

技术实现优缺点: 

五、NNLAM

样本案例:

公式: 

优缺点: 

六、word2vec

案例和算法图

二次方的概率: 

 

PCA实现二维可视化 

 

优缺点 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/85540.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/85540.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/85540.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何将文件从安卓设备传输到电脑?

将文件从 Android 手机传输到 PC 是例行公事吗?想让文件传输更轻松吗?幸运的是,您可以从本文中获得 7 种方法,其中包含详细的步骤,帮助您轻松了解如何将文件从 Android 传输到 PC,涵盖了从无线工具到传统 U…

【经验分享】浅谈京东商品SKU接口的技术实现原理

京东商品 SKU 接口的技术实现原理涉及数据建模、架构设计、接口协议、安全机制及性能优化等多个技术层面。以下从技术角度详细拆解其实现逻辑: 一、SKU 数据模型与存储架构 1. SKU 数据模型设计 核心字段定义: 基础属性:SKU ID、商品名称、…

虚拟机配置node.js(前端环境搭建)

1.在windows下安装node.js(以及npm) 修改npm镜像为阿里云的 npm install --registryhttps://registry.npmmirror.com 2.在Linux下安装node.js(Centos7 只支持16版本之前的) wget https://npmmirror.com/mirrors/node/v15.14.0/n…

多模态大语言模型arxiv论文略读(129)

Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations ➡️ 论文标题:Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations ➡️ 论文作者:M…

【Redis】Redis 关于 BigKey 的实践规约

目录 一、BigKey 的概念 1.1 普通 key 的设计规则 1.2 BigKey 的定义 1.3 BigKey 存在的问题 二、BigKey 的发现与解决方案 第一种方式:redis-cli --bigkeys 第二种方式:scan扫描 第三种方式:第三方工具 第四种方式:网络…

Golang 与 C/C++ 交互实践

在软件开发的实际场景中,我们常常会遇到需要将不同语言的优势结合起来的情况。Golang 凭借其高效的并发性能和简洁的语法,在网络编程和系统开发领域备受青睐;而 C/C 则以其强大的底层操作能力,在系统资源管理方面具有独特优势。那…

五子棋流量主小程序单模式多模式开源版

功能和特点: 核心游戏功能: 1515 标准棋盘 黑白棋交替落子 自动判断胜负和平局 悔棋功能 计时功能 UI 设计: 木纹风格棋盘 立体感棋子(使用阴影和渐变) 响应式布局,适配不同屏幕尺寸 胜利弹窗动画 交互体验…

Python古代文物成分分析与鉴别研究:灰色关联度、岭回归、K-means聚类、决策树分析

原文链接:tecdat.cn/?p42718分析师:Gan Tian 在文化遗产保护领域,古代玻璃制品的成分分析一直是研究中西方文化交流的关键课题。作为数据科学家,我们在处理某博物馆委托的古代玻璃文物保护咨询项目时,发现传统分析方法…

RabbitMQ消息队列实战指南

RabbitMQ 是什么? RabbitMQ是一个遵循AMQP协议的消息中间件,它从生产者接收消息并传递给消费者,在这个过程中,根据路由规则进行消息的路由、缓存和持久化。 AMQP,高级消息队列协议,是应用层协议的一个开放…

用Java将PDF转换成GIF

为什么要将 PDF 文件转换为 GIF 图片? PDF 是一种矢量图像格式(因此可以根据指定的尺寸进行渲染),而 GIF 是一种有损的、固定尺寸的位图文件,像素值固定。因此,将 PDF 转换为 GIF 文件时,我们需…

Redis之分布式锁(2)

上一篇文章我们介绍了什么是分布式锁和分布式锁的一些基本概念。这篇文章我们来讲解一下基于数据库如何实现分布式锁。 基于数据库实现分布式锁 基于数据库实现分布式锁可以分为两种方式,分别是基于数据库表和基于数据库排他锁。 基于数据库表 要实现分布式锁&…

智能检测护航电池产业:容量设备如何提升效率与安全?

电池容量是衡量其储能能力的重要指标,直接影响设备续航与使用寿命。电池容量检测设备通过模拟真实使用场景,精准测量电池的充放电性能,为电池生产、质检及回收环节提供关键数据支持,成为保障电池品质与安全的核心工具。 核心功能…

介绍一款免费MES、开源MES系统、MES源码

一、系统概述: 万界星空科技免费MES、开源MES、商业开源MES、市面上最好的开源MES、MES源代码、适合二开的开源MES。 1.万界星空开源MES制造执行系统的Java开源版本。 开源mes系统包括系统管理,车间基础数据管理,计划管理,物料控制…

构建高性能日志系统:QGroundControl日志模块深度解析

引言:日志系统的重要性 在无人机地面站系统中,日志记录是诊断问题、分析性能的关键基础设施。QGroundControl(QGC)作为领先的开源无人机地面站软件,其日志系统设计值得深入探讨。本文将揭示QGC日志系统的核心技术&…

k8s查看内存占用前十的20个pod服务,不包括job

在 Kubernetes 中,您可以使用 kubectl 命令结合一些工具来查看内存占用前十的 Pod 服务,并排除 Job 类型的 Pod。以下是一个示例命令,您可以在终端中运行: kubectl top pods --all-namespaces --no-headers | grep -v job | sort …

Spring Boot 集成 LangChain4j 示例

文章目录 概述一、DeepSeek API Key 获取二、Spring Boot 集成 LangChain4j 示例三、拓展建议 概述 LangChain4j 是 LangChain 在 Java 生态下的实现,它是一个开源库,帮助你更方便地在 Spring Boot 应用中集成大语言模型(如 OpenAI 的 GPT-4…

数据差异的iOS性能调试:设备日志导出和iOS文件管理

在复杂iOS项目中,尤其是集成多个第三方服务、使用混合数据源(本地远程缓存)的系统里,“数据不一致”类问题极具迷惑性。一方面,数据看似可用,逻辑层也没有明显错误;另一方面,用户层面…

二进制与生活:从数字世界到人生哲理

二进制与生活:从数字世界到人生哲理 最近重温《少年谢尔顿》,被剧中谢尔顿与二进制对话的场景深深打动。这让我思考:二进制这个看似冰冷的数字系统,其实与我们的生活有着千丝万缕的联系。今天,让我们一起走进二进制的世…

基于SMB协议的内网存活主机探测技术研究

一、 技术背景 SMB(Server Message Block)协议是Windows环境中广泛使用的网络文件共享协议,默认开放于445端口。由于其在Windows系统中的核心地位,SMB协议常被用作内网探测的重要切入点。本文系统介绍多种基于SMB的存活主机探测技术,帮助安全…

IDEA21中文乱码解决办法

我改了很多,可能也改了一些没用的 1.在VM options中添加-Dstdout.encodingUTF-8 -Dstderr.encodingUTF-8 2.IDEA 控制台输出设置为 UTF-8 打开 IDEA → File → Settings(或 CtrlAltS) 搜索 "Encoding" 设置 Project Encoding 和…