动学学深度学习pytorch
参考地址:https://zh.d2l.ai/
文章目录
- 动学学深度学习pytorch
- 1-第05章-深度学习计算
- 1. 层(Layer)与块(Block)
- 1.1 什么是深度学习中的“层”?
- 1.2 什么是“块”(Block)?
- 1.3 PyTorch 中如何定义自定义块?
- 2. Sequential 与自定义顺序块
- 2.1 `nn.Sequential` 的作用
- 2.2 如何手写简化版 `MySequential`?
- 3. 参数管理
- 3.1 如何访问模型任意层的参数?
- 3.2 如何初始化参数?
- 3.3 什么是参数绑定(共享)?
- 4. 延后初始化(Deferred Initialization)
- 4.1 什么是延后初始化?
- 5. 自定义层
- 5.1 如何创建不带参数的层?
- 5.2 如何创建带参数的层?
- 6. 模型读写
- 6.1 如何保存与加载模型参数?
- 6.2 如何保存/加载完整张量或张量字典?
- 7. GPU 计算
- 7.1 如何查看可用 GPU?
- 7.2 如何将张量与模型移至 GPU?
- 7.3 跨 GPU 注意事项
1-第05章-深度学习计算
1. 层(Layer)与块(Block)
1.1 什么是深度学习中的“层”?
层是神经网络的基本计算单元,接收输入、生成输出,并由一组可学习参数(权重、偏置)描述。
1.2 什么是“块”(Block)?
块是比层更大、可递归组合的抽象单元,可以表示:
- 单个层
- 多个层组成的组件
- 整个模型本身
块通过类(class)实现,必须实现: forward()
:前向传播- 参数存储与初始化
- 反向传播由框架自动完成。
1.3 PyTorch 中如何定义自定义块?
示例:实现一个 20→256→10 的 MLP 块
class MLP(nn.Module):def __init__(self):super().__init__()self.hidden = nn.Linear(20, 256)self.out = nn.Linear(256, 10)def forward(self, X):return self.out(F.relu(self.hidden(X)))
2. Sequential 与自定义顺序块
2.1 nn.Sequential
的作用
按顺序串联子模块,自动将上一层的输出作为下一层输入。
net = nn.Sequential(nn.Linear(20, 256),nn.ReLU(),nn.Linear(256, 10)
)
2.2 如何手写简化版 MySequential
?
class MySequential(nn.Module):def __init__(self, *args):super().__init__()for idx, module in enumerate(args):self._modules[str(idx)] = moduledef forward(self, X):for block in self._modules.values():X = block(X)return X
3. 参数管理
3.1 如何访问模型任意层的参数?
- 索引方式
net[2].weight # 第3层权重
net[2].bias.data # 第3层偏置值
- 一次性遍历
for name, param in net.named_parameters():print(name, param.shape)
3.2 如何初始化参数?
- 内置初始化器
nn.init.normal_(net[0].weight, mean=0, std=0.01)
nn.init.constant_(net[0].bias, 0)
- 自定义初始化
def my_init(m):if type(m) == nn.Linear:with torch.no_grad():m.weight.uniform_(-10, 10)m.weight *= m.weight.abs() >= 5
net.apply(my_init)
3.3 什么是参数绑定(共享)?
多个层使用同一 Parameter
对象,修改一处即全部同步。
shared = nn.Linear(8, 8)
net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(),shared, nn.ReLU(),shared, nn.ReLU(),nn.Linear(8, 1)
)
4. 延后初始化(Deferred Initialization)
4.1 什么是延后初始化?
框架直到第一次前向传播时才根据输入张量推断各层权重形状,无需手动指定输入维度。
net = nn.Sequential(nn.LazyLinear(256), nn.ReLU(), nn.LazyLinear(10))
net(torch.randn(2, 20)) # 触发初始化
5. 自定义层
5.1 如何创建不带参数的层?
示例:将输入减去均值
class CenteredLayer(nn.Module):def forward(self, X):return X - X.mean()
5.2 如何创建带参数的层?
示例:自定义全连接层
class MyLinear(nn.Module):def __init__(self, in_units, units):super().__init__()self.weight = nn.Parameter(torch.randn(in_units, units))self.bias = nn.Parameter(torch.randn(units))def forward(self, X):return torch.matmul(X, self.weight) + self.bias
6. 模型读写
6.1 如何保存与加载模型参数?
- 保存
torch.save(net.state_dict(), 'mlp.params')
- 加载
clone = MLP()
clone.load_state_dict(torch.load('mlp.params'))
6.2 如何保存/加载完整张量或张量字典?
torch.save({'x': x, 'y': y}, 'tensor_dict.pt')
data = torch.load('tensor_dict.pt')
7. GPU 计算
7.1 如何查看可用 GPU?
torch.cuda.device_count() # GPU 数量
torch.device('cuda:0') # 第0块 GPU
7.2 如何将张量与模型移至 GPU?
- 张量
X = torch.ones(2, 3, device='cuda:0')
- 模型
net = nn.Sequential(nn.Linear(3, 1))
net.to('cuda:0')
7.3 跨 GPU 注意事项
- 必须保证参与运算的数据在同一设备上
X_on1 = X.cuda(1) # 复制到 GPU1
Y_on1 = Y.cuda(1)
Z = X_on1 + Y_on1
- 减少 CPU↔GPU 拷贝次数以避免性能瓶颈