一句话看懂统计语言模型

核心任务:教电脑判断一句话 “像不像人话”
(比如“我爱吃苹果”✅ vs “苹果吃爱我”❌)


1. 早期:死磕语法规则 → 失败!

  • 科学家思路(1970年前):
    像语文老师一样,给电脑写《语法规则大全》(比如“主语后必须接动词”)。
  • 为啥翻车
    人话太灵活!规则永远写不完,还互相矛盾。
    → 像逼外国人背1000条语法才能点咖啡,结果还是说错💔

2. 统计语言模型崛起:数数就行!

IBM贾里尼克大神(1970s)的暴论
不用懂语法!数一数这句话出现的概率就行!

  • 例:“我爱吃苹果”在100万句人话中出现 50次 → 合理!
  • “苹果吃爱我”出现 0次 → 不合理!
怎么算概率?—— 马尔可夫偷懒法
  • 问题:长句概率难算(比如“我爱吃红苹果”要算“爱”在“我”后、“吃”在“我爱”后…)
  • 解决方案(N-gram模型)
    每个词只看前面1-3个词,其他忽略!
    • 例(三元模型):
      “吃”的概率只看前面两个词 → 如果“我爱”后常跟“吃”,那“我爱吃”概率就高!
    • 缺点
      像只记3秒的金鱼🐟,无法理解“我上周买的苹果真甜”这种跨句子关联。

3. 神经网络登场:让电脑“脑补”

2003年 NNLM 模型(本吉奥)

创新点

  • 给每个词发“身份证号”(词向量),比如:
    苹果 = [0.2, -1.3, 4.5]吃 = [1.0, 0.8, -0.2]
  • 用神经网络根据前N个词的“身份证号”猜下一个词。

可惜:当时大家不信神经网络,埋没十年😢

2013年 Word2Vec 模型(谷歌)

封神之作

  • 核心突破:一个词在不同上下文有 同一个向量(静态词向量)。
  • 训练方法
    • CBOW:用周围词猜中心词(如用“我爱__苹果”猜“吃”)
    • Skip-gram:用中心词猜周围词(如用“吃”猜“我”“爱”“苹果”)

致命弱点
无法区分多义词!比如“苹果”的向量永远是同一个,分不清是水果还是手机公司🍎📱


4. 动态词向量时代:上下文才是王道

2018年 ELMo 模型

解决多义词:同一个词在不同句子中 动态变向量

  • 例:
    “吃苹果” → “苹果”向量靠近[水果, 甜]
    “买苹果” → “苹果”向量靠近[手机, 贵]
  • 原理:用双向LSTM(一种能记长句的神经网络)扫描全文后动态调整词向量。
2018年 BERT 模型(谷歌终极版)

集大成者

  • Transformer(比LSTM更强的编码器)
  • 像做填空题学习:随机遮住句中词(如“我爱__苹果”),让模型猜“吃”
  • 结果:横扫11项NLP任务,成行业标准!

缺点:太强导致不能直接写文章(像只会答题不会创作的学霸)。


关键模型关系图(小白版)

语法规则(失败)  
↓  
统计模型(数概率)→ N-gram(偷懒法)  
↓  
NNLM(最早神经网络)→ 被遗忘  
↓  
Word2Vec(静态词向量封神)→ 败给多义词  
↓  
ELMo(动态词向量初代)→ 用LSTM  
↓  
BERT(动态词向量终极版)→ Transformer + 填空题训练法 ✅

一句话总结发展逻辑

电脑学人话的进化史
背语法书数句子出现次数背单词身份证结合上下文动态改身份证

越新的模型越像 真人聊天
你一说“苹果”,我就知道此刻指的是手机还是水果!🍎📱

下次听到“BERT”“词向量”,记住:
它们就是让电脑变成“懂王”的秘密武器! 🚀

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/93051.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/93051.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/93051.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[激光原理与应用-230]:物理学主要分支、研究对象、衍生技术及职业方向解析

物理学作为自然科学的核心学科,其分支体系覆盖从微观粒子到宏观宇宙的广阔领域,并通过交叉融合衍生出众多前沿技术。以下从经典与现代物理学分支、交叉学科、技术转化及职业方向四个维度展开分析:一、经典物理学分支:宏观世界的基…

北京JAVA基础面试30天打卡08

RocketMQ、RabbitMQ与Kafka对比及常见问题解决方案 一、概述 消息队列(Message Queue, MQ)是企业IT系统内部通信的核心手段,用于提升性能、实现系统解耦和流量削峰。它具有低耦合、可靠投递、广播、流量控制、最终一致性等功能,是…

【CSS 变量】让你的 CSS “活”起来:深入理解 CSS 自定义属性与主题切换

【CSS 变量】让你的 CSS “活”起来:深入理解 CSS 自定义属性与主题切换 所属专栏: 《前端小技巧集合:让你的代码更优雅高效》 上一篇: 【CSS 视觉】无需JS,纯 CSS 实现酷炫视觉效果(clip-path, filter, b…

RAG初步实战:从 PDF 到问答:我的第一个轻量级 RAG 系统(附详细项目代码内容与说明)

RAG初步实战:从 PDF 到问答:我的第一个轻量级 RAG 系统 项目背景与目标 在大模型逐渐普及的今天,Retrieval-Augmented Generation(RAG,检索增强生成)作为连接“知识库”和“大语言模型”的核心范式&#…

自主泊车算法

看我的git 在 open space 空间下规划出⼀条⾃⻋到停⻋位的⽆碰撞轨迹 满⾜平滑约束 可跟踪 考虑动态障碍物约束 在路径不可⽤的情况下 具备重规划能⼒ 重规划时能够做到⽆缝切换 即从原路径⽆缝切换到重规划路径 ⽆明显体感 规划频率 10HZ

USB 2.0 学习(2)- 连接

上回说到 usb的信号 k 状态和 j 状态,补充一下 usb的一些电气小知识。 1.USB设备有四根线 电源线VBus、 D、 D-、 地线GND 2.USB主机端的 D 和 D-各有1个15k下拉电阻,这是为了准确检测 D还是D-线上电平的变化 因为USB总线检测USB设备是低速还是全速设备…

解锁 Appium Inspector:移动端 UI 自动化定位的利器

​ 在移动端 UI 自动化测试中,元素定位是绕不开的核心环节。无论是 Android 还是 iOS 应用,能否精准、高效地定位到界面元素,直接决定了自动化脚本的稳定性和可维护性。而 Appium Inspector 作为 Appium 生态中专门用于元素定位的工具&#…

机器学习概念1

了解机器学习1、什么是机器学习机器学习是一门通过编程让计算机从数据中进行学习的科学 通用定义:机器学习是一个研究领域让计算机无须进行明确编程就具备学习能力 工程化定义:一个计算机程序利用经验E来学习任务T,性能是P,如果针…

前端html学习笔记5:框架、字符实体与 HTML5 新增标签

本文为个人学习总结,如有谬误欢迎指正。前端知识众多,后续将继续记录其他知识点! 目录 前言 一、框架标签 作用: 语法: 属性: 二、字符实体 作用: 三、html5新增标签 语义化 状态 列…

Day05 店铺营业状态设置 Redis

Redis 入门 Redis 简介 Redis 是一个基于内存的 key-value 结构数据库。 基于内存存储,读写性能高 适合存储热点数据(热点商品,资讯,新闻) 企业应用广泛 redis 中文网:Redis中文网 Redis 下载与安装 R…

Linux驱动开发probe字符设备的完整创建流程

一、 设备号分配1.静态分配通过register_chrdev_region预先指定设备号(需要确保未被占用)2.动态分配通过alloc_chrdev_region由内核自动分配主设备号,一般都是动态分配以避免冲突。3316 xxxx_dev.major 0; 3317 3318 if (xx…

生产环境中Spring Cloud Sleuth与Zipkin分布式链路追踪实战经验分享

生产环境中Spring Cloud Sleuth与Zipkin分布式链路追踪实战经验分享 在复杂的微服务架构中,服务调用链路繁杂,单点故障或性能瓶颈往往难以定位。本文结合真实生产环境案例,分享如何基于Spring Cloud Sleuth与Zipkin构建高可用、低开销的分布…

基于Python的《红楼梦》文本分析与机器学习应用

本文将详细介绍如何使用Python和机器学习技术对《红楼梦》进行深入的文本分析和处理,包括文本分卷、分词、停用词处理、TF-IDF特征提取以及文本可视化等关键技术。一、项目概述本项目的目标是对中国古典文学名著《红楼梦》进行全面的自动化处理和分析,主…

Bevy渲染引擎核心技术深度解析:架构、体积雾与Meshlet渲染

本文将深入探讨Bevy游戏引擎的渲染架构,重点分析其体积雾实现原理、Meshlet渲染技术以及基于物理的渲染(PBR)系统。内容严格基于技术实现细节,覆盖从底层渲染管线到高级特效的全套解决方案。一、Bevy渲染架构深度解析1.1 核心架构…

CASS11计算斜面面积

1.生成三角网2.工程应用--计算表面积--根据三角网

借助Rclone快速从阿里云OSS迁移到AWS S3

本文作者: 封磊 Eclicktech SA | AWS Community Builder DevTool | AWS UGL | 亚马逊云科技云博主 阿里云&InfoQ&CSDN签约作者 概述 随着企业云战略的调整和多云架构的普及,数据迁移成为了一个常见需求。本文将详细介绍如何使用Rclone工具,高效…

【入门系列】图像算法工程师如何入门计算机图形学?

作为图像算法工程师,入门计算机图形学(CG)有天然优势——你熟悉图像处理的像素级操作、数学工具(如矩阵运算)和优化思维,而图形学的核心目标(从3D信息生成2D图像)与图像处理有很强的…

淘宝API列表:高效获取商品详情图主图商品视频参数item_get

淘宝商品详情信息基本都是用图片展示的,制作精美,能更好的展示商品信息。如何通过API实现批量获取商品详情信息呢?1、在API平台注册账号,获取调用API的key和密钥。2、查看API文档,了解相关请求参数和返回参数。item_ge…

第23章,景深:技术综述

一,定义: 中景:物体聚焦的范围(即清晰成像的范围)。 景深:在中景之外,都会成像模糊,即景深。景深通常用来指示对场景的注意范围,并提供场景深度的感觉。 背景&#xff1a…

飞算 JavaAI -智慧城市项目实践:从交通协同到应急响应的全链路技术革新

免责声明:此篇文章所有内容都是本人实验,并非广告推广,并非抄袭,如有侵权,请联系。 目录 一、智慧城市核心场景的技术攻坚 1.1 交通信号智能优化系统的实时决策 1.1.1 实时车流数据处理与分析 1.1.2 动态信号配时…