动学学深度学习pytorch

参考地址：https://zh.d2l.ai/

文章目录

动学学深度学习pytorch
- 1-第05章-深度学习计算
- - 1. 层（Layer）与块（Block）
  - - 1.1 什么是深度学习中的“层”？
    - 1.2 什么是“块”（Block）？
    - 1.3 PyTorch 中如何定义自定义块？
  - 2. Sequential 与自定义顺序块
  - - 2.1 `nn.Sequential` 的作用
    - 2.2 如何手写简化版 `MySequential`？
  - 3. 参数管理
  - - 3.1 如何访问模型任意层的参数？
    - 3.2 如何初始化参数？
    - 3.3 什么是参数绑定（共享）？
  - 4. 延后初始化（Deferred Initialization）
  - - 4.1 什么是延后初始化？
  - 5. 自定义层
  - - 5.1 如何创建不带参数的层？
    - 5.2 如何创建带参数的层？
  - 6. 模型读写
  - - 6.1 如何保存与加载模型参数？
    - 6.2 如何保存/加载完整张量或张量字典？
  - 7. GPU 计算
  - - 7.1 如何查看可用 GPU？
    - 7.2 如何将张量与模型移至 GPU？
    - 7.3 跨 GPU 注意事项

1-第05章-深度学习计算

1. 层（Layer）与块（Block）

1.1 什么是深度学习中的“层”？

层是神经网络的基本计算单元，接收输入、生成输出，并由一组可学习参数（权重、偏置）描述。

1.2 什么是“块”（Block）？

块是比层更大、可递归组合的抽象单元，可以表示：

单个层
多个层组成的组件
整个模型本身
块通过类（class）实现，必须实现：
forward()：前向传播
参数存储与初始化
反向传播由框架自动完成。

1.3 PyTorch 中如何定义自定义块？

示例：实现一个 20→256→10 的 MLP 块

class MLP(nn.Module):def __init__(self):super().__init__()self.hidden = nn.Linear(20, 256)self.out = nn.Linear(256, 10)def forward(self, X):return self.out(F.relu(self.hidden(X)))

2. Sequential 与自定义顺序块

2.1 `nn.Sequential` 的作用

按顺序串联子模块，自动将上一层的输出作为下一层输入。

net = nn.Sequential(nn.Linear(20, 256),nn.ReLU(),nn.Linear(256, 10)
)

2.2 如何手写简化版 `MySequential`？

class MySequential(nn.Module):def __init__(self, *args):super().__init__()for idx, module in enumerate(args):self._modules[str(idx)] = moduledef forward(self, X):for block in self._modules.values():X = block(X)return X

3. 参数管理

3.1 如何访问模型任意层的参数？

索引方式

net[2].weight      # 第3层权重
net[2].bias.data   # 第3层偏置值

一次性遍历

for name, param in net.named_parameters():print(name, param.shape)

3.2 如何初始化参数？

内置初始化器

nn.init.normal_(net[0].weight, mean=0, std=0.01)
nn.init.constant_(net[0].bias, 0)

自定义初始化

def my_init(m):if type(m) == nn.Linear:with torch.no_grad():m.weight.uniform_(-10, 10)m.weight *= m.weight.abs() >= 5
net.apply(my_init)

3.3 什么是参数绑定（共享）？

多个层使用同一 Parameter 对象，修改一处即全部同步。

shared = nn.Linear(8, 8)
net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(),shared, nn.ReLU(),shared, nn.ReLU(),nn.Linear(8, 1)
)

4. 延后初始化（Deferred Initialization）

4.1 什么是延后初始化？

框架直到第一次前向传播时才根据输入张量推断各层权重形状，无需手动指定输入维度。

net = nn.Sequential(nn.LazyLinear(256), nn.ReLU(), nn.LazyLinear(10))
net(torch.randn(2, 20))  # 触发初始化

5. 自定义层

5.1 如何创建不带参数的层？

示例：将输入减去均值

class CenteredLayer(nn.Module):def forward(self, X):return X - X.mean()

5.2 如何创建带参数的层？

示例：自定义全连接层

class MyLinear(nn.Module):def __init__(self, in_units, units):super().__init__()self.weight = nn.Parameter(torch.randn(in_units, units))self.bias   = nn.Parameter(torch.randn(units))def forward(self, X):return torch.matmul(X, self.weight) + self.bias

6. 模型读写

6.1 如何保存与加载模型参数？

保存

torch.save(net.state_dict(), 'mlp.params')

加载

clone = MLP()
clone.load_state_dict(torch.load('mlp.params'))

6.2 如何保存/加载完整张量或张量字典？

torch.save({'x': x, 'y': y}, 'tensor_dict.pt')
data = torch.load('tensor_dict.pt')

7. GPU 计算

7.1 如何查看可用 GPU？

torch.cuda.device_count()          # GPU 数量
torch.device('cuda:0')             # 第0块 GPU

7.2 如何将张量与模型移至 GPU？

张量

X = torch.ones(2, 3, device='cuda:0')

模型

net = nn.Sequential(nn.Linear(3, 1))
net.to('cuda:0')

7.3 跨 GPU 注意事项

必须保证参与运算的数据在同一设备上

X_on1 = X.cuda(1)   # 复制到 GPU1
Y_on1 = Y.cuda(1)
Z = X_on1 + Y_on1

减少 CPU↔GPU 拷贝次数以避免性能瓶颈