从零开始学习NLP

在这个由三部分组成的系列中,你将构建并训练一个基本的字符级循环神经网络 (RNN) 来对单词进行分类。

你将学习

  • 如何从零开始构建循环神经网络
  • NLP 的基本数据处理技术
  • 如何训练 RNN 以识别单词的语言来源。

从零开始学自然语言处理:使用字符级 RNN 对名字进行分类

我们将构建并训练一个基本的字符级循环神经网络 (RNN) 来对单词进行分类。展示了如何预处理数据以建模 NLP。特别是,这些教程展示了如何以低层次处理数据来建模 NLP。

字符级 RNN 将单词读取为一系列字符 - 在每个步骤输出一个预测和“隐藏状态”,并将其先前的隐藏状态馈送到下一个步骤中。我们将最终预测作为输出,即单词所属的类别。

具体来说,我们将训练数据集包含来自 18 种语言的数千个姓氏,并根据拼写预测名字来自哪种语言。

准备 Torch

设置 torch,使其默认使用正确的设备,并根据您的硬件(CPU 或 CUDA)使用 GPU 加速。

import torch# Check if CUDA is available
device = torch.device('cpu')
if torch.cuda.is_available():device = torch.device('cuda')torch.set_default_device(device)
print(f"Using device = {torch.get_default_device()}")

输出:

Using device = cuda:0

准备数据

从此处下载数据并将其解压到当前目录。

data/names 目录中包含 18 个文本文件,文件名格式为 [Language].txt。每个文件包含许多名字,每行一个,大部分已罗马化(但我们仍然需要从 Unicode 转换为 ASCII)。

第一步是定义和清理我们的数据。首先,我们需要将 Unicode 转换为纯 ASCII 以限制 RNN 输入层。这通过将 Unicode 字符串转换为 ASCII 并只允许一小部分允许的字符来实现。

import string
import unicodedata# We can use "_" to represent an out-of-vocabulary character, that is, any character we are not handling in our model
allowed_characters = string.ascii_letters + " .,;'" + "_"
n_letters = len(allowed_characters)# Turn a Unicode string to plain ASCII, thanks to https://stackoverflow.com/a/518232/2809427
def unicodeToAscii(s):return ''.join(c for c in unicodedata.normalize('NFD', s)if unicodedata.category(c) != 'Mn'and c in allowed_characters)

这是一个将 Unicode 字母名字转换为纯 ASCII 的示例。这简化了输入层

print (f"converting 'Ślusàrski' to {unicodeToAscii('Ślusàrski')}")

输出:

converting 'Ślusàrski' to Slusarski

将名字转换为张量(Tensors)

现在我们已经组织好所有名字,我们需要将它们转换为张量才能使用它们。

为了表示单个字母,我们使用大小为 <1 x n_letters> 的“one-hot 向量”。one-hot 向量除了当前字母索引处为 1 外,其余均为 0,例如 "b" = <0 1 0 0 0 ...>

为了构成一个单词,我们将这些向量连接成一个 2D 矩阵 <line_length x 1 x n_letters>

额外的维度 1 是因为 PyTorch 假定所有内容都是批量的 - 我们这里仅使用批量大小为 1。

# Find letter index from all_letters, e.g. "a" = 0
def letterToIndex(letter):# return our out-of-vocabulary character if we encounter a letter unknown to our modelif letter not in allowed_characters:return allowed_characters.find("_")else:return allowed_characters.find(letter)# Turn a line into a <line_length x 1 x n_letters>,
# or an array of one-hot letter vectors
def lineToTensor(line):tensor = torch.zeros(len(line), 1, n_letters)for li, letter in enumerate(line):tensor[li][0][letterToIndex(letter)] = 1return tensor

这里有一些如何对单个字符或多个字符字符串使用 lineToTensor() 的示例。

print (f"The letter 'a' becomes {lineToTensor('a')}") #notice that the first position in the tensor = 1
print (f"The name 'Ahn' becomes {lineToTensor('Ahn')}") #notice '

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/87713.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/87713.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/87713.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL在ubuntu下的安装

前言&#xff1a; 安装与卸载中&#xff0c;用户全部进行切换为root ,一旦安装&#xff0c;普通用户也是可以进行使用 初期联系mysql时不进行用户的管理&#xff0c;直接使用root 进行即可&#xff0c;尽快适应mysql语句&#xff0c;后面进行学了用户管理再考虑新建普通用户。&…

低代码技术实战:从 0 到 1 构建高效业务流程应用

引言 在当今竞争激烈的商业环境中&#xff0c;企业迫切需要简化运营并提高效率。低代码技术作为一种新兴的解决方案&#xff0c;正逐渐成为企业实现这一目标的有力工具。它能够将繁琐的手工业务流程转化为数字资产和应用程序&#xff0c;为企业带来诸多优势。本文将详细介绍低…

RPGMZ游戏引擎 如何手动控制文字显示速度

直接上代码 const _Window_Base_prototype_initialize Window_Base.prototype.initialize;Window_Base.prototype.initialize function(rect) {_Window_Base_prototype_initialize.call(this, rect);this.文字速度缓冲 0;}; this.文字速度缓冲 0; 进行缓冲 Window_Base…

Leetcode-1750. 删除字符串两端相同字符后的最短长度

Problem: 1750. 删除字符串两端相同字符后的最短长度1750. 删除字符串两端相同字符后的最短长度 1750. 删除字符串两端相同字符后的最短长度 思路 双指针遍历 解题过程 模拟题目描述的过程&#xff0c;使用指针 l, r 指向首尾两端。 如果相同就向中心移动。为了尽可能的删除多…

【mysql】通过information_schema.tables查询表的统计信息

1 查询表的统计信息 information_schema.tables 是 MySQL 中的一个系统视图&#xff0c;包含数据库中所有表的信息。 如何查询当前数据库的所有表信息&#xff1a; SELECT * FROM information_schema.tables WHERE table_schema DATABASE(); 返回的字段有&#xff1a; 字段名…

“地标界爱马仕”再启:世酒中菜联袂陈汇堂共筑新会陈皮顶奢产业

“地标界爱马仕”再启战略新篇&#xff1a;世酒中菜联袂陈汇堂&#xff0c;共筑新会陈皮顶奢产业生态 ——中世国际与陈汇堂股权合作签约仪式在国际地理标志服务基地举行 江门市新会区&#xff0c;2025年6月20日——被誉为“地标界爱马仕”的全球顶奢品牌运营商世酒中菜 &…

倒计时 效果

实现HTML <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>信质集团SAP/ERP切换倒计时</title…

高性能群集部署技术-Nginx+Tomcat负载均衡群集

目录 #1.1案例概述 1.1.1案例前置知识点 1.1.2案例环境 #2.1案例实施 2.1.1实施准备 2.1.2查看JDK是否安装 2.1.3安装配置Tomcat 2.1.4Tomcat主配置文件说明 2.1.5建立Java的Web站点 #3.1NginxTomcat负载均衡&#xff0c;动静分离群集的实验案例 3.1.1案例概述 3.1.2案例环境…

《Go语言圣经》函数值、匿名函数递归与可变参数

《Go语言圣经》函数值、匿名函数递归与可变参数 函数值&#xff08;Function Values&#xff09; 在 Go 语言中&#xff0c;函数被视为第一类值&#xff08;first-class values&#xff09;&#xff0c;这意味着它们可以像其他值一样被操作&#xff1a;拥有类型、赋值给变量、…

vtk和opencv和opengl直接的区别是什么?

简介 VTK、OpenCV 和 OpenGL 是三个在计算机图形学、图像处理和可视化领域广泛使用的工具库&#xff0c;但它们在功能、应用场景和底层技术上存在显著差异。以下是它们的核心区别和特点对比&#xff1a; 1. 核心功能与定位 工具核心功能主要应用领域VTK (Visualization Toolk…

最新豆包大模型发布!火山引擎推出Agent开发新范式

Datawhale大会 2025火山引擎 Force 原动力大会 6月11日-12日&#xff0c;北京国家会议中心人山人海&#xff0c;2025 火山引擎 Force 原动力大会如约而至。 作为开发者社区的一员&#xff0c;这场大会上的一系列新发布让我们感受到了&#xff1a;这个 Agent 技术落地元年的关键…

RFC4291-IPv6地址架构解说

RFC 4291 是由互联网工程任务组&#xff08;IETF&#xff09;发布的关于 IPv6 地址架构 的标准文档。 该文档详细定义了 IPv6 地址的格式、类型、表示方法以及分配方式。 以下是对 RFC 4291 中 IPv6 地址架构的全面解析&#xff0c;包括地址格式、类型、表示方法、特殊地址以…

简单对比 **HTTP**、**MQTT** 和 **CoAP** 这三种通信协议

对比 HTTP、MQTT 和 CoAP 这三种通信协议&#xff0c;从 消息结构、资源占用、安全性 等方面进行全面分析。 &#x1f310; HTTP vs MQTT vs CoAP 对比 特性HTTPMQTTCoAP协议层级应用层基于 TCP应用层基于 TCP / WebSocket应用层基于 UDP (也支持 TCP)消息模式请求/响应 (客户…

【Dify 案例】【自然语言转SQL案例】【五】【实战二】【财务管理查询商品信息数据】

援引实战一,进行数据业务处理化 1.开始 2.自然语言转SQL的工具 3.参数提取器 4.SQL查询

FPGA基础 -- Verilog语言要素之标识符

一、什么是标识符&#xff08;Identifier&#xff09; 在 Verilog 中&#xff0c;标识符是用户定义的名字&#xff0c;用于标识模块、变量、端口、函数、任务、参数、宏定义等各种语言要素。 就像 C 语言的变量名、函数名一样&#xff0c;Verilog 中的标识符为 HDL 代码提供了…

Tomcat双击startup.bat闪退的解决方法

首先需要确认java环境是否配置正确&#xff0c;jdk是否安装正确 winR打开cmd&#xff0c;输入该命令 java -version 出现对应的版本就说明jdk配置正确 如果没有&#xff0c;则参考jdk的安装及配置 如果以上都没有问题&#xff0c;就继续排查 确认Tomcat的环境变量配置 概…

计算机基础(三):深入解析Java中的原码、反码、补码

计算机基础系列文章 计算机基础(一)&#xff1a;ASCll、GB2312、GBK、Unicode、UTF-32、UTF-16、UTF-8深度解析 计算机基础(二)&#xff1a;轻松理解二进制、八进制、十进制和十六进制 计算机基础(三)&#xff1a;深入解析Java中的原码、反码、补码 目录 引言一、 基础概念&…

phpstudy无法启动mysql,一启动就关闭,完美解决

phpstudy无法启动mysql&#xff0c;一启动就关闭&#xff0c;完美解决 phpstudy的mysql无法启动&#xff0c;一启动就关闭如何解决。 问题出现的原因&#xff1a;phpstudy自带的mysql&#xff0c;可能与之前单独安装的mysql发生冲突。(之前安装的mysql已经占用3306端口) 解决方…

mysql中的<>和!=

在MySQL中&#xff0c;<> 运算符表示 不等于。它与 ! 运算符功能完全相同&#xff0c;都是用于比较两个表达式是否不相等。 SELECT * FROM table_name WHERE column_name <> value;当 column_name 的值不等于 value 时&#xff0c;返回该行当值相等或为 NULL 时&a…

C#学习日记

命名空间 知识点一 命名空间基本概念 概念 命名空间是用来组织和重用代码的 作用 就像是一个工具包&#xff0c;类就像是一件一件的工具&#xff0c;都是申明在命名空间中的 知识点二 命名空间的使用 基本语法 namespace 命名空间名 {类类 } namespace MyGame {class GameO…