1 张量

1）张量的初始化和属性

2）张量操作

3）使用 NumPy 进行桥接

2 torch.autograd

1）背景

2）在 PyTorch 中的使用

3）Autograd 的微分机制

4）计算图原理

5）从计算图中排除

3 神经网络

1）定义网络

2）损失函数

3）反向传播

4）权重更新

本篇是笔者基于官方文档所做的学习笔记，在完整保留文档技术要点的同时提供辅助备注，也可作为官方文档的中文参考译文阅读。如需了解如何安装和运行 PyTorch 可移步《PyTorch 入门学习笔记》。

PyTorch 是由 Meta（原 Facebook）开源的深度学习框架，是基于 Python 的科学计算包，主要服务于两大用途：（1）作为 NumPy 的替代方案，支持 GPU 及其他硬件加速器的高性能计算，显著提升张量运算效率；（2）作为自动微分库，为神经网络训练提供高效的梯度计算与反向传播支持。

1 张量

张量（Tensor）是 PyTorch 中多维数据的主要载体，类似于 NumPy 的 ndarray，但支持 GPU 加速计算和自动微分功能，是神经网络中数据和梯度计算的基础单位。

1）张量的初始化和属性

张量有以下几种创建方式：直接用数据创建，用 numpy 数组创建，用另一个张量创建，用常量或随机值创建。例如：

import torch
import numpy as np# 用数据创建
data = [[1, 2], [3, 4]]
x_data = torch.tensor(data)# 用数组创建
np_array = np.array(data)
x_np = torch.from_numpy(np_array)# 用另一个张量创建
x_ones = torch.ones_like(x_data) # 保持 x_data 的属性
print(f"Ones Tensor: \n {x_ones} \n")
x_rand = torch.rand_like(x_data, dtype=torch.float) # 覆盖 x_data 的类型
print(f"Random Tensor: \n {x_rand} \n")# 用常量或随机值次创建
shape = (2, 3,)
rand_tensor = torch.rand(shape)
ones_tensor = torch.ones(shape)
zeros_tensor = torch.zeros(shape)print(f"Random Tensor: \n {rand_tensor} \n")
print(f"Ones Tensor: \n {ones_tensor} \n")
print(f"Zeros Tensor: \n {zeros_tensor}")

运行结果如下：

张量属性描述了它们的形状、数据类型和存储它们的设备。

tensor = torch.rand(3, 4)print(f"Shape of tensor: {tensor.shape}")
print(f"Datatype of tensor: {tensor.dtype}")
print(f"Device tensor is stored on: {tensor.device}")

运行结果如下：

2）张量操作

PyTorch 提供了超过100种张量操作，涵盖数学运算、线性代数、数据切片等常见需求。这些操作均可在 GPU 上运行，且速度通常远快于 CPU。如果您使用的是 Colab，可以通过 Edit —— Notebook Settings 来分配。

# 将张量移动到 GPU 上（如果支持）
if torch.cuda.is_available():tensor = tensor.to('cuda')print(f"Device tensor is stored on: {tensor.device}")

尝试一些操作（如果您熟悉 NumPy API，则会发现 Tensor API 使用起来相对更容易）：

# 类似 numpy 的标准索引和切片
tensor = torch.ones(4, 4)
tensor[:,1] = 0
print(tensor)# 可以用 torch.cat 将张量沿指定维度连接起来（还有类似功能 torch.stack）
t1 = torch.cat([tensor, tensor, tensor], dim=1)
print(t1)# 计算元素级乘积
print(f"tensor.mul(tensor) \n {tensor.mul(tensor)} \n")
# 也可以这样写
print(f"tensor * tensor \n {tensor * tensor}")# 计算两个张量之间的矩阵乘法
print(f"tensor.matmul(tensor.T) \n {tensor.matmul(tensor.T)} \n")
# 也可以这样写
print(f"tensor @ tensor.T \n {tensor @ tensor.T}")# 原地操作，带有 _ 后缀的操作是原地操作（例如 x.copy_(y) 和 x.t_() 会直接修改 x 的值）
print(tensor, "\n")
tensor.add_(5)
print(tensor)

运行结果如下：

3）使用 NumPy 进行桥接

CPU 上的张量和 NumPy 数组可以共享它们的底层内存位置，更改其中一个将会更改另一个。

# 张量转换为 NumPy 数组
t = torch.ones(5)
print(f"t: {t}")
n = t.numpy()
print(f"n: {n}")# 张量的变化会反映在 NumPy 数组上
t.add_(1)
print(f"t: {t}")
print(f"n: {n}")# NumPy 数组转张量
n = np.ones(5)
t = torch.from_numpy(n)# NumPy 数组的修改会同步到张量
np.add(n, 1, out=n)
print(f"t: {t}")
print(f"n: {n}")

运行结果如下：

2 torch.autograd

torch.autograd 是 PyTorch 的自动微分引擎，为神经网络训练提供核心支持。

1）背景

神经网络（Neural Networks, NNs）是由一系列嵌套函数组成的计算模型，这些函数对输入数据执行运算。这些函数由参数（包括权重和偏置）定义，在 PyTorch 中，这些参数以张量的形式存储。

神经网络的训练过程分为两个阶段：

前向传播（Forward Propagation）

在前向传播过程中，神经网络基于输入数据计算其预测输出。数据依次经过网络中的每一层函数，最终生成预测结果。
反向传播（Backward Propagation）

在反向传播过程中，神经网络根据预测误差按比例调整参数。具体做法是从输出层开始反向遍历网络，计算误差关于各层参数的导数（即梯度），并利用梯度下降法优化参数。

如果把前向传播就类比成按菜谱做菜，反向传播则是根据成品味道反推和调整菜谱配方。

2）在 PyTorch 中的使用

来看一个简单的训练示例，本例从 torchvision 加载一个预训练的 resnet18 模型。创建一个随机数据张量来模拟一张3通道、高宽均为64的图像，并初始化其对应的标签为随机值。预训练模型中的标签形状为(1,1000)。注意：本教程仅适用于 CPU 环境，无法在 GPU 设备上运行（即使将张量移至 CUDA）。

import torch
from torchvision.models import resnet18, ResNet18_Weights
model = resnet18(weights=ResNet18_Weights.DEFAULT)
data = torch.rand(1, 3, 64, 64)
labels = torch.rand(1, 1000)

将输入数据传入模型，经过每一层的计算得到预测结果——这就是前向传播。

prediction = model(data) # 前向传播

然后计算误差（损失值），也就是计算预测值与真实标签之间的差异度量。然后再将这个误差反向传播到整个网络中。调用 .backward() 方法会触发反向传播过程。此时 Autograd 引擎会自动计算每个模型参数的梯度（梯度表示函数在某一点的导数或偏导数，描述了张量随着其输入变化的变化率），并将它们存储在参数的 .grad 属性中。

loss = (prediction - labels).sum() # 计算损失
loss.backward() # 反向传播

接下来加载一个优化器，优化器的技术本质是一个能自动调整模型参数的算法，目标是让预测结果越来越准，通俗点说就是告诉模型怎么改、改多少。这个例子中使用了随机梯度下降法（SGD），并设置学习率为0.01，动量参数为0.9。我们要将模型的所有参数都注册到该优化器中。

optim = torch.optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)

然后调用 .step() 方法来执行梯度下降。优化器会根据每个参数存储在 .grad 属性中的梯度值来调整这些参数。

optim.step()  # 执行梯度下降

以上就是训练神经网络所需的所有基本步骤。

3）Autograd 的微分机制

autograd 是如何收集梯度的呢？创建两个张量 a 和 b，并设置 requires_grad=True。这相当于告诉 autograd：请跟踪所有对这两个张量的运算。

import torcha = torch.tensor([2., 3.], requires_grad=True)
b = torch.tensor([6., 4.], requires_grad=True)

接着用 a 和 b 生成新张量 Q：

Q = 3*a**3 - b**2

假设 a 和 b 是神经网络的参数，Q 是误差值。在训练神经网络时，我们需要计算误差关于参数的梯度（a 的梯度应为9倍 a 的平方，b 的梯度应为-2倍的 b）：

当调用 Q.backward() 时，autograd 会计算梯度并将结果存储在各个张量的 .grad 属性中。

由于 Q 是向量，这里需要显式传入一个 gradient 参数。这个参数是与 Q 形状相同的张量，代表 Q 对自身的梯度，即：

等价的做法是将 Q 聚合为标量再隐式调用 backward，例如 Q.sum().backward()。

external_grad = torch.tensor([1., 1.])
Q.backward(gradient=external_grad)

现在梯度已存入 a.grad 和 b.grad 中：

# 验证梯度是否正确
print(9*a**2 == a.grad)  # 检查 a 的梯度
print(-2*b == b.grad)    # 检查 b 的梯度

运行结果如下：

4）计算图原理

autograd 通过有向无环图（DAG）记录数据（张量）和执行的所有运算（包括生成的新张量）。这个 DAG 由 Function 对象构成：

叶子节点：输入张量（如初始参数）
根节点：输出张量（如损失值）

通过从根节点回溯到叶子节点，autograd 能利用链式法则自动计算梯度。

前向传播，autograd 会同步完成两件事：

执行运算：计算输出张量
维护 DAG：记录运算对应的梯度函数（grad_fn）

反向传播，当调用 .backward() 时，autograd 会：

从每个 grad_fn 计算梯度
将梯度累加到对应张量的 .grad 属性中
通过链式法则一直传播到叶子张量

下图是本示例中 DAG 的可视化表示，箭头指向向前传递的方向，节点表示每个操作的反向函数。蓝色叶子节点表示张量 a 和 b。

5）从计算图中排除

torch.autograd 会跟踪所有设置 requires_grad 为 True 的张量的运算，对于不需要梯度计算的张量，将requires_grad 设为 False 即可将其排除在梯度计算图（DAG）之外。

x = torch.rand(5, 5)
y = torch.rand(5, 5)
z = torch.rand((5, 5), requires_grad=True)a = x + y
print(f"Does `a` require gradients?: {a.requires_grad}")
b = x + z
print(f"Does `b` require gradients?: {b.requires_grad}")

运行结果如下：

在神经网络中，不计算梯度的参数通常被称为冻结参数。如果事先知道某些参数不需要计算梯度（通过减少自动微分计算提升性能），那么“冻结”模型的一部分就会非常有用。在微调时，我们通常会冻结模型的大部分参数，仅修改分类器层以适配新的标签预测。如下是一个小示例（需要先安装依赖 pip install torchvision ）。和之前一样，先加载一个预训练的 resnet18 模型，并冻结其所有参数。

from torch import nn, optimmodel = resnet18(weights=ResNet18_Weights.DEFAULT)# 冻结网络中的所有参数
for param in model.parameters():param.requires_grad = False

假设我们需要在一个包含10个类别的新数据集上对模型进行微调。在 resnet 中，分类器（模型中负责最终分类预测的层，如全连接层）是最后的全连接层 model.fc。可以直接将其替换为一个新的全连接层（默认情况下未被冻结），作为我们的分类器。

model.fc = nn.Linear(512, 10)

现在模型中除 model.fc 的参数外，其余所有参数均被冻结。唯一需要计算梯度的参数是 model.fc 的权重和偏置项。

# 只优化分类器
optimizer = optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)

尽管在优化器中注册了所有参数，但实际计算梯度（在梯度下降中会被更新）的只有分类器的权重和偏置项。同样的参数排除功能也可以通过上下文管理器 torch.no_grad() 实现。

3 神经网络

可以使用 torch.nn 包来构建神经网络。nn 模块是基于 autograd 来定义模型并进行微分计算的。一个 nn.Module 包含若干网络层，以及一个 forward(input) 方法，该方法返回网络的输出结果。

下图是一个用于手写数字图像分类的网络示意图：

这是一个简单的前馈神经网络（常见的神经网络还有：卷积神经网络、循环神经网络等）。它接收输入数据，依次通过多个网络层进行处理，最终产生输出结果。神经网络的标准训练流程通常包括以下步骤：

定义包含可训练参数（或称权重）的神经网络结构
遍历输入数据集
将输入数据送入网络进行前向传播
计算损失值（输出结果与正确结果的偏差）
将梯度反向传播至网络各参数
使用简单更新规则调整网络权重：权重 = 权重 - 学习率 × 梯度（梯度下降算法的核心表达式）

1）定义网络

import torch
import torch.nn as nn
import torch.nn.functional as Fclass Net(nn.Module):def __init__(self):super(Net, self).__init__()# 输入图像通道数1（灰度图），输出通道数6，5x5卷积核self.conv1 = nn.Conv2d(1, 6, 5)# 输入通道数6，输出通道数16，5x5卷积核self.conv2 = nn.Conv2d(6, 16, 5)# 全连接层（仿射变换）：y = Wx + b# 输入维度16*5*5（16个通道，5x5特征图），输出120维self.fc1 = nn.Linear(16 * 5 * 5, 120) # 5*5来自图像维度# 全连接层：120维输入，84维输出self.fc2 = nn.Linear(120, 84)# 输出层：84维输入，10维输出（对应10个类别）self.fc3 = nn.Linear(84, 10)def forward(self, input):# 卷积层C1：1输入通道，6输出通道，5x5卷积核# 使用ReLU激活函数，输出张量尺寸为(N, 6, 28, 28)，N是批次大小c1 = F.relu(self.conv1(input))# 下采样层S2：2x2最大池化，无参数# 输出张量尺寸为(N, 6, 14, 14)s2 = F.max_pool2d(c1, (2, 2))# 卷积层C3：6输入通道，16输出通道，5x5卷积核# 使用ReLU激活函数，输出张量尺寸为(N, 16, 10, 10)c3 = F.relu(self.conv2(s2))# 下采样层S4：2x2最大池化，无参数# 输出张量尺寸为(N, 16, 5, 5)s4 = F.max_pool2d(c3, 2)# 展平操作：无参数，输出(N, 400)张量s4 = torch.flatten(s4, 1)# 全连接层F5：输入(N, 400)，输出(N, 120)# 使用ReLU激活函数f5 = F.relu(self.fc1(s4))# 全连接层F6：输入(N, 120)，输出(N, 84)# 使用ReLU激活函数f6 = F.relu(self.fc2(f5))# 输出层：输入(N, 84)，输出(N, 10)output = self.fc3(f6)return output# 实例化网络
net = Net()
print(net)

运行结果如下：

你只需定义前向传播函数。反向传播函数（用于计算梯度）将通过 autograd 自动定义。在前向传播中，可以使用任何张量运算。

net.parameters() 返回模型的所有可训练参数：

params = list(net.parameters()) # 返回可训练参数（权重和偏置）并转为 list
print(len(params))
print(params[0].size()) # conv1 的权重大小

运行结果如下：

现在尝试输入一个随机的32×32矩阵。注意：该网络（LeNet）的预期输入尺寸为32×32。若要将此网络用于 MNIST 数据集，请将数据集中的图像尺寸调整为32×32。

input = torch.randn(1, 1, 32, 32)
out = net(input)
print(out)

运行结果如下：

将所有参数的梯度缓冲区清零，并使用随机梯度进行反向传播：

net.zero_grad()
out.backward(torch.randn(1, 10))

注意：torch.nn 模块仅支持小批量输入样本（不能是单个样本）。例如，nn.Conv2d 层需要接收一个4维张量，其维度为：样本数×通道数×高度×宽度。若只有单个样本，只需使用 input.unsqueeze(0) 来添加一个虚拟的批次维度。

回顾一下目前学到的类：

torch.Tensor：支持自动求导运算的多维数组，如 backward() ，同时存储着张量的梯度信息。
nn.Module：神经网络模块。封装参数的便捷方式，提供将参数移至 GPU、导出、加载等辅助功能。
nn.Parameter：张量的一种，当被赋值给 Module 的属性时，会自动注册为模型参数。
autograd.Function：实现自动求导运算的前向和反向定义。每个张量运算至少会创建一个Function 节点，该节点会记录创建该张量的函数并编码其运算历史。

2）损失函数

损失函数接受入参 (output, target) ，并计算一个值，该值估计输出与目标的差距。nn 包下有几个不同的损失函数，一个简单的损失函数是：nn.MSELoss，计算输出和目标之间的均方误差。例如：

output = net(input)
target = torch.randn(10) # 创建一个假目标
target = target.view(1, -1) # 使其与输出的形状相同
criterion = nn.MSELoss()loss = criterion(output, target)
print(loss)

运行结果如下：

现在，如果你反向跟踪 loss 函数，使用它的 .grad_fn 属性，你会看到一个如下所示的计算图：

因此，当我们调用 loss.backward() 时，整个计算图会相对于神经网络参数进行微分，图中所有 requires_grad=True 的张量都会累积梯度值到它们的 .grad 张量中。反向追踪几个步骤：

print(loss.grad_fn) # 输出 MSE 损失函数的梯度计算节点
print(loss.grad_fn.next_functions[0][0]) # 输出线性层的梯度计算节点
print(loss.grad_fn.next_functions[0][0].next_functions[0][0])  # 输出 ReLU 激活层的梯度计算节点

运行结果如下：

3）反向传播

要实现误差反向传播，只需执行 loss.backward()。但注意需要清除已有梯度，否则梯度会累积到现有梯度之上。通过如下代码观察反向传播前后 conv1 层偏置的梯度变化：

net.zero_grad() # 将所有参数的梯度缓冲区置零print('conv1.bias.grad 反向传播之前')
print(net.conv1.bias.grad)loss.backward()print('conv1.bias.grad 反向传播之后')
print(net.conv1.bias.grad)

运行结果如下：

4）权重更新

实践中最简单的更新规则是随机梯度下降法（简称 SGD）：

weight = weight - learning_rate * gradient# 可以通过简单的 Python 代码实现：
learning_rate = 0.01
for f in net.parameters():f.data.sub_(f.grad.data * learning_rate)

在使用神经网络时，我们可以使用各种不同的更新规则（SGD、 Nesterov-SGD、 Adam、 RMSProp 等）。可以通过一个小软件包 torch.optim 来实现所有这些方法：

import torch.optim as optim# 创建优化器
optimizer = optim.SGD(net.parameters(), lr=0.01)# 训练循环中的操作
optimizer.zero_grad() # 清空梯度缓冲
output = net(input)
loss = criterion(output, target)
loss.backward()
optimizer.step() # 执行更新

注意：观察梯度缓冲区是如何使用 optimizer.zero_grad() 手动设置为零的（如前面所述，梯度是累积的）。

【本节完&持续更新】