书籍地址

简要总结一下个人理解

文章目录

    • 1.1 NLP
    • 1.2 发展历程
    • 1.3 NLP任务
      • 1.3.1 中文分词
      • 1.3.2 子词切分
      • 1.3.3 词性标注
      • 1.3.4 文本分类
      • 1.3.5 实体识别
      • 1.3.6 关系抽取
      • 1.3.7 文本摘要
      • 1.3.8 机器翻译
      • 1.3.9 自动问答
    • 1.4 文本表示的发展
      • 1.4.1 词向量
      • 1.4.2 语言模型
      • 1.4.3 Word2Vec
      • 1.4.4 ELMo

1.1 NLP

英文:Natural Language Processing
全程:自然语言处理
含义:通过计算机模拟人类认知和使用语言

1.2 发展历程

  1. 早期探索:1940 - 1960年代
  2. 符号注意与统计方法:1970 - 1990年代
  3. 机器学习与深度学习:2000年代至今

1.3 NLP任务

1.3.1 中文分词

把句子分解成字和词

英文输入:The cat sits on the mat.
英文切割输出:[The | cat | sits | on | the | mat]中文输入:今天天气真好,适合出去游玩.
中文切割输出:["今天", "天气", "真", "好", ",", "适合", "出去", "游玩", "。"]

1.3.2 子词切分

对词语进一步切分,对于英文unhappiness分别成un前缀、happi词根、ness后缀

1.3.3 词性标注

标注为名词、动词、形容词

1.3.4 文本分类

对于给定文本,将其进行分类

文本:“NBA季后赛将于下周开始,湖人和勇士将在首轮对决。”
类别:“体育”文本:“美国总统宣布将提高关税,引发国际贸易争端。”
类别:“政治”文本:“苹果公司发布了新款 Macbook,配备了最新的m3芯片。”
类别:“科技”

1.3.5 实体识别

从文本中抽取人名、地名还是时间等

输入:李雷和韩梅梅是北京市海淀区的居民,他们计划在2024年4月7日去上海旅行。输出:[("李雷", "人名"), ("韩梅梅", "人名"), ("北京市海淀区", "地名"), ("2024年4月7日", "日期"), ("上海", "地名")]

1.3.6 关系抽取

抽取实体以及它们的联系,是构建知识图谱的基础

输入:比尔·盖茨是微软公司的创始人。输出:[("比尔·盖茨", "创始人", "微软公司")]

1.3.7 文本摘要

对给定的文本做个总结

  1. 抽取式摘要
    从原文摘取,简单但不够通顺

  2. 生成式摘要
    自己生成,需要复杂的模型

1.3.8 机器翻译

Machine Translation, MT

1.3.9 自动问答

Automatic Question Answering, QA
过程:

  1. 理解问题
  2. 提供答案

分类:

  1. 检索式问答(Retrieval-based QA):从搜索引擎找答案
  2. 知识库问答(Knowledge-based QA):根据构建的知识库给答案
  3. 社区问答(Community-based QA):根据用户社区论坛给答案

1.4 文本表示的发展

在计算机中如何表示文本是一个难题

1.4.1 词向量

类似于onehot,词汇表存在所有可能出现的词语,每个词语就是词汇表一个的01向量,问题是数据稀疏维数灾难

# "雍和宫的荷花很美"
# 词汇表大小:16384,句子包含词汇:["雍和宫", "的", "荷花", "很", "美"] = 5个词vector = [0, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ...]
#                    ↑          ↑          ↑          ↑          ↑
#      16384维中只有5个位置为1,其余16379个位置为0
# 实际有效维度:仅5维(非零维度)
# 稀疏率:(16384-5)/16384 ≈ 99.97%

1.4.2 语言模型

N-gram 模型:基于马尔可夫假设,一个词的出现概率仅依赖于它前面的N-1个词
优点:简单、易于理解
问题:N较大,数据稀疏、参数大;忽略词之间的依赖关系,无法捕捉句子结构和语义

1.4.3 Word2Vec

是一种词嵌入(Word Embedding)技术,由Tomas Mikolov等人在2013年提出

架构:

  1. 续词袋模型CBOW(Continuous Bag of Words):根据目标词上下文中的词对应的词向量, 计算并输出目标词的向量表示(适用于小型数据集)-根据上下文猜目标词
  2. Skip-Gram模型:利用目标词的向量表示计算上下文中的词向量(在大型语料中表现更好)-根据目标词猜上下文

优点:密集向量
缺点:基于局部上下文的,无法捕捉到长距离的依赖关系,缺乏整体的词与词之间的关系

1.4.4 ELMo

Embeddings from Language Models
过程:

  1. 预训练
  2. 使用双向LSTM结构

优点:

  1. 捕捉到词汇的多义性和上下文信息
  2. 生成的词向量更加丰富和准确

问题:

  • 模型复杂度高、训练时间长、计算资源消耗大等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/88175.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/88175.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/88175.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AUTOSAR图解==>AUTOSAR_AP_SWS_Persistency

AUTOSAR 持久化功能集群解析 1. 引言 AUTOSAR (AUTomotive Open System ARchitecture) 适配平台中的持久化功能集群(Persistency Functional Cluster)是一个核心组件,为应用程序提供数据持久化服务。本文档详细分析了AUTOSAR持久化功能集群的架构、主要组件和工作…

Ollama常用命令详解:本地大语言模型管理指南

前言 Ollama是一个强大的本地大语言模型管理工具,让我们可以轻松地在本地部署和运行各种开源大模型。本文将详细介绍Ollama的核心命令使用方法,帮助您快速上手本地AI模型的管理和使用。 1. 查看已安装模型 - ollama list 基本用法 ollama list功能说…

[免费]SpringBoot+Vue共享单车信息系统【论文+源码+SQL脚本】

大家好,我是java1234_小锋老师,看到一个不错的SpringBootVue共享单车信息系统【论文源码SQL脚本】,分享下哈。 项目视频演示 【免费】SpringBootVue共享单车信息系统 Java毕业设计_哔哩哔哩_bilibili 项目介绍 快速发展的社会中&#xff…

内网提权-DC-3靶场实验(Ubantu16.04)

靶场地址 https://download.vulnhub.com/dc/DC-3-2.zip 打开DC-3 使用kali扫描获取靶场ip 目录扫描获取后台地址 弱口令admin/snoopy进入后台 此处可写入一句话木马 创建文件写入一句话木马 哥斯拉上线 使用lsb_release -a命令查看内核版本 方法一 使用ubuntu漏洞库发现该…

Nginx:互斥锁 accept_mutex配置

如何配置 Nginx 的互斥锁 accept_mutex 1. 理解 accept_mutex 的作用 accept_mutex 是 Nginx 用于控制多工作进程(worker processes)接收新连接时避免「惊群问题(Thundering Herd)」的机制。 启用时(accept_mutex o…

aws(学习笔记第四十六课) codepipeline-build-deploy

文章目录 aws(学习笔记第四十六课) codepipeline-build-deploy学习内容:1. 代码链接及整体架构1.1 代码链接1.2 整体架构1.2.1 初始化阶段的`codecommit repo`以及`codebuild project`设定1.2.2 创建`vpc`,`public alb`,`alb listener`以及`fargate service`等1.2.3 创建`so…

Vue 项目中的组件职责划分评审与组件设计规范制定

在现代前端系统中,Vue(无论是 2.x 还是 3.x)提供了良好的组件化机制,为构建复杂交互系统打下了基础。然而,随着项目规模增长,组件职责不清、代码重叠、维护困难等问题频发,严重影响开发效率与可…

react 的过渡动画

一、React的过渡动画 1、react-transition-group 在开发中,我们想要给一个组件的显示和消失,添加某种过渡动画,可以很好的增加用户体验, React社区为我们提供了react-transition-group用来完成过渡动画, React曾为…

深度学习:PyTorch人工神经网络优化方法分享(1)

本文目录: 一、从梯度角度入手(一)梯度下降算法回顾(二)常用优化算法1.SGD(Stochastic Gradient Descent)- 随机梯度下降2.BGD (Batch Gradient Descent) - 批量梯度下降3.MBGD (Mini-Batch Gra…

(三)yolov5——模型训练

一、准备数据 先准备一个MP4的视频 1.测试一帧 使用opencv来提取每一个视频的帧 先使用以下代码查看一帧的内容,是否符合预期 import cv2 import matplotlib.pyplot as plt# 打开视频文件 video cv2.VideoCapture("111.mp4") # 读取一帧 ret, frame…

008 Linux 开发工具(下) —— make、Makefile、git和gdb

🦄 个人主页: 小米里的大麦-CSDN博客 🎏 所属专栏: Linux_小米里的大麦的博客-CSDN博客 🎁 GitHub主页: 小米里的大麦的 GitHub ⚙️ 操作环境: Visual Studio 2022 文章目录 Linux 开发工具(下)Linux 项目自动化构建工…

前缀和题目:连续的子数组和

文章目录 题目标题和出处难度题目描述要求示例数据范围 解法思路和算法代码复杂度分析 题目 标题和出处 标题:连续的子数组和 出处:523. 连续的子数组和 难度 5 级 题目描述 要求 给定一个整数数组 nums \texttt{nums} nums 和一个整数 k \tex…

队的简单介绍

队列:只允许在一端进行插入数据操作,在另一端进行删除数据操作的特殊线性表,队列具有先进先出 FIFO(First In First Out)的特点。 入队列:进行插入操作的一端称为队尾。 出队列:进行删除操作的一端称为队头。 入队列…

AI-Sphere-Butler之如何将豆包桌面版对接到AI全能管家~新玩法(一)

环境: AI-Sphere-Butler VBCABLE2.1.58 Win10专业版 豆包桌面版1.47.4 ubuntu22.04 英伟达4070ti 12G python3.10 问题描述: AI-Sphere-Butler之如何将豆包桌面版对接到AI全能管家~新玩法(一) 聊天视频: AI真…

【STM32】启动流程

1、.s启动文件解析 STM32的启动文件(一般是.s汇编文件,如startup_stm32f407xx.s)是STM32上电后执行的第一段代码,承担着“系统初始化化引导员”的角色。 它的主要作用是设置初始化栈指针(SP)、程序计数器&…

【vim】通过vim编辑器打开、修改、退出配置文件

通过vim编辑器打开任一配置文件 vim /etc/profile 英文输入下,按i键进入INSERT模式,修改配置文件 完成修改后,按esc键退出INSERT模式 英文输入下,输入":wq!",即可保存并退出 :q #不保存并退出 :q! …

Effective Modern C++ 条款6:当 auto 推导类型不符合预期时,使用显式类型初始化惯用法

在C开发中,auto关键字以其简洁性和高效性被广泛使用。然而,“自动推导”并非万能,尤其在某些特殊场景下,auto的推导结果可能与开发者预期不符,甚至导致未定义行为。今天,我们以《Effective Modern C》条款6…

学习Linux进程冻结技术

原文:蜗窝科技Linux进程冻结技术 功耗中经常需要用到,但是linux这块了解甚少,看到这个文章还蛮适合我阅读的 1 什么是进程冻结 进程冻结技术(freezing of tasks)是指在系统hibernate或者suspend的时候,将…

GitHub 趋势日报 (2025年06月22日)

📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图 今日获星趋势图 624 LLMs-from-scratch 523 ai-engineering-hub 501 n8n 320 data-engineer-handb…

kotlin中为什么新增扩展函数功能?

在 Kotlin 中,扩展函数的本质是「不修改原有类代码,为其新增功能」,这源自编程中「开闭原则」(对扩展开放,对修改关闭)的第一性原理。 核心需求:当需要给第三方库的类(如 Android 的…