神经网络中的回归详解

引言

神经网络（NeuralNetworks）是一种强大的机器学习模型，可用于分类和回归任务。本文聚焦于神经网络中的回归（Regression），即预测连续输出值（如房价、温度）。

回归问题：给定输入特征 $x⃗\vec{x}$ ，预测连续目标 $y$ 。神经网络通过多层非线性变换学习复杂映射 $f:x⃗↦yf:\vec{x}\mapsto y$ 。

基本概念回顾

神经元与层

神经元（Neuron）：基本单元。输入 $x⃗=(x1,…,xn)\vec{x}=(x_1,\dots,x_n)$ ，权重 $w⃗=(w1,…,wn)\vec{w}=(w_1,\dots,w_n)$ ，偏置 $b$ 。
计算：线性组合 $z=w⃗⋅x⃗+b=∑i=1nwixi+bz=\vec{w}\cdot\vec{x}+b=\sum_{i=1}^nw_ix_i+b$ 。
然后激活： $a=σ(z)a=\sigma(z)$ ， $σ\sigma$ 为激活函数。
层（Layer）：多个神经元组成。
- 输入层：原始特征。
- 隐藏层：中间变换。
- 输出层：最终预测 $y^\hat{y}$ （回归中通常1个神经元，无激活或线性激活）。
前馈神经网络（FeedforwardNeuralNetwork，FNN）：信息从输入到输出单向流动。也称多层感知机（MLP）。

激活函数

激活引入非线性。常见：

Sigmoid： $σ(z)=1/(1+e−z)\sigma(z)=1/(1+e^{-z})$ ，输出[0,1]。
Tanh： $σ(z)=(ez−e−z)/(ez+e−z)\sigma(z)=(e^z-e^{-z})/(e^z+e^{-z})$ ，输出[-1,1]。
ReLU： $σ(z)=max⁡(0,z)\sigma(z)=\max(0,z)$ ，简单高效，避免梯度消失。
Linear： $σ(z)=z\sigma(z)=z$ ，用于回归输出层。

隐藏层常用ReLU，输出层线性以输出任意实数。

神经网络回归模型结构

数学表示

假设网络有 $L$ 层。第 $l$ 层有 $m_l$ 个神经元。

输入： $a⃗(0)=x⃗∈Rm0\vec{a}^{(0)}=\vec{x}\in\mathbb{R}^{m_0}$ 。
第 $l$ 层：
$\vec{z}^{(l)}=W^{(l)}\vec{a}^{(l-1)}+\vec{b}^{(l)}$
$\vec{a}^{(l)}=\sigma^{(l)}(\vec{z}^{(l)})$
其中 $W(l)∈Rml×ml−1W^{(l)}\in\mathbb{R}^{m_l\times m_{l-1}}$ 为权重矩阵， $b⃗(l)∈Rml\vec{b}^{(l)}\in\mathbb{R}^{m_l}$ 为偏置。
输出： $y^=a⃗(L)\hat{y}=\vec{a}^{(L)}$ （标量）。

整个网络： $y^=f(x⃗;θ)\hat{y}=f(\vec{x};\theta)$ ， $θ={W(l),b⃗(l)}l=1L\theta=\{W^{(l)},\vec{b}^{(l)}\}_{l=1}^L$ 为参数。

示例结构

简单回归网络：输入2维，1隐藏层(3神经元)，输出1维。

输入层： $x⃗=(x1,x2)\vec{x}=(x_1,x_2)$ 。
隐藏层： $W(1)∈R3×2W^{(1)}\in\mathbb{R}^{3\times2}$ ， $b⃗(1)∈R3\vec{b}^{(1)}\in\mathbb{R}^3$ ，激活ReLU。
输出层： $W(2)∈R1×3W^{(2)}\in\mathbb{R}^{1\times3}$ ， $b⃗(2)∈R\vec{b}^{(2)}\in\mathbb{R}$ ，激活线性。

损失函数

回归常用均方误差（MeanSquaredError，MSE）：
$L(y^,y)=12(y^−y)2 \mathcal{L}(\hat{y},y)=\frac{1}{2}(\hat{y}-y)^2$
批次样本：$ \mathcal{L}=\frac{1}{N}\sum_{i=1}^{N\frac{1}{2}(\hat{y}_i-y_i)}2 $

其他：MAE（ $L=∣y^−y∣\mathcal{L}=|\hat{y}-y|$ ），HuberLoss（对异常值鲁棒）。

训练过程：反向传播与梯度下降

前向传播

从输入计算到输出，得到 $y^\hat{y}$ 和 $L\mathcal{L}$ 。

反向传播（Backpropagation）

计算梯度 $∂L/∂θ\partial\mathcal{L}/\partial\theta$ 。

输出层误差： $δ(L)=∂L/∂z⃗(L)=(y^−y)⋅σ(L)′(z⃗(L))\delta^{(L)}=\partial\mathcal{L}/\partial\vec{z}^{(L)}=(\hat{y}-y)\cdot\sigma^{(L)'}(\vec{z}^{(L)})$ （线性激活时 $σ′=1\sigma'=1$ ，故 $δ(L)=y^−y\delta^{(L)}=\hat{y}-y$ ）。
向后传播： $δ(l)=(W(l+1))Tδ(l+1)⊙σ(l)′(z⃗(l))\delta^{(l)}=(W^{(l+1)})^T\delta^{(l+1)}\odot\sigma^{(l)'}(\vec{z}^{(l)})$ ， $⊙\odot$ 为逐元素乘。
梯度：
$\frac{\partial\mathcal{L}}{\partial W^{(l)}}=\delta^{(l)}(\vec{a}^{(l-1)})^T$
$\frac{\partial\mathcal{L}}{\partial\vec{b}^{(l)}}=\delta^{(l)}$

优化：梯度下降

更新参数： $θ:=θ−η∇θL\theta:=\theta-\eta\nabla_\theta\mathcal{L}$ ， $η\eta$ 为学习率。

变体：

SGD：随机梯度下降，每批次更新。
Momentum：添加动量 $v:=βv−η∇v:=\beta v-\eta\nabla$ ， $θ:=θ+v\theta:=\theta+v$ 。
Adam：自适应学习率，结合动量和RMSProp。

完整训练算法

初始化 $θ\theta$ （e.g.,Xavier初始化）。
对于每个epoch：
a. 前向：计算 $y^\hat{y}$ ， $L\mathcal{L}$ 。
b. 反向：计算梯度。
c. 更新 $θ\theta$ 。
监控验证损失，早停防止过拟合。

数学推导示例：简单网络

假设单隐藏层，输入1维 $x$ ，隐藏1神经元，输出 $y^\hat{y}$ 。

前向：
$z^{(1)}=w_1x+b_1$ ， $a(1)=σ(z(1))a^{(1)}=\sigma(z^{(1)})$ （ReLU）。
$z^{(2)}=w_2a^{(1)}+b_2$ ， $y^=z(2)\hat{y}=z^{(2)}$ （线性）。
损失： $L=12(y^−y)2\mathcal{L}=\frac{1}{2}(\hat{y}-y)^2$ 。
梯度：
$∂L/∂y^=y^−y\partial\mathcal{L}/\partial\hat{y}=\hat{y}-y$ 。
$∂L/∂w2=(y^−y)a(1)\partial\mathcal{L}/\partial w_2=(\hat{y}-y)a^{(1)}$ 。
$∂L/∂b2=y^−y\partial\mathcal{L}/\partial b_2=\hat{y}-y$ 。
$∂L/∂a(1)=(y^−y)w2\partial\mathcal{L}/\partial a^{(1)}=(\hat{y}-y)w_2$ 。
$∂L/∂z(1)=∂L/∂a(1)⋅σ′(z(1))\partial\mathcal{L}/\partial z^{(1)}=\partial\mathcal{L}/\partial a^{(1)}\cdot\sigma'(z^{(1)})$ （ReLU’:1 if $z^{(1)}>0$ ，else0）。
$∂L/∂w1=∂L/∂z(1)⋅x\partial\mathcal{L}/\partial w_1=\partial\mathcal{L}/\partial z^{(1)}\cdot x$ 。
$∂L/∂b1=∂L/∂z(1)\partial\mathcal{L}/\partial b_1=\partial\mathcal{L}/\partial z^{(1)}$ 。

正则化与优化技巧

过拟合防治：
- L1/L2正则：添加 $λ∑∣w∣\lambda\sum|w|$ 或 $λ∑w2\lambda\sum w^2$ 到损失。
- Dropout：训练时随机丢弃神经元（概率p）。
- 数据增强：增加训练数据。
- 早停：验证损失上升时停止。
初始化：He初始化forReLU： $w∼N(0,2/ml−1)w\sim\mathcal{N}(0,\sqrt{2/m_{l-1}})$ 。
批标准化（BatchNormalization）：在每层后标准化 $z⃗(l)\vec{z}^{(l)}$ ，加速训练。
学习率调度：余弦退火或指数衰减。
超参数调优：层数、神经元数、学习率、批大小。用GridSearch或BayesianOptimization。

优点与缺点

优点：
- 处理非线性关系：通用函数逼近器。
- 自动特征提取：隐藏层学习高级表示。
- 可扩展：深层网络捕捉复杂模式。
缺点：
- 计算密集：训练需GPU。
- 黑箱：解释性差（用SHAP或LIME改善）。
- 需大量数据：小数据集易过拟合。
- 梯度消失/爆炸：深层网络问题（用ReLU、残差连接缓解）。

应用场景

房价预测：输入面积、位置等，输出价格。
时间序列预测：RNN/LSTM变体，但基本FNN可用于简单回归。
图像回归：CNN提取特征，后接全连接回归（如年龄估计）。
金融：股票价格预测。

实际例子

例子1：线性回归模拟

用单层无激活网络模拟线性回归 $y = 2 x + 1$ 。

输入 $x$ ，输出 $y^=wx+b\hat{y}=wx+b$ 。
损失MSE。
训练后 $w≈2w\approx2$ ， $b≈1b\approx1$ 。

例子2：非线性回归

预测 $y=sin⁡(x)+噪声y=\sin(x)+噪声$ 。

网络：输入1，隐藏[64,64]ReLU，输出1线性。
数据：1000点 $x∈[−π,π]x\in[-π,π]$ 。
训练：Adam，MSE，epochs=1000。
网络学习正弦曲线。

代码实现（Python with PyTorch）

import torch
import torch.nn as nn
import torch.optim as optimclass RegressionNet(nn.Module):def __init__(self):super().__init__()self.fc1 = nn.Linear(1, 64)self.fc2 = nn.Linear(64, 64)self.fc3 = nn.Linear(64, 1)def forward(self, x):x = torch.relu(self.fc1(x))x = torch.relu(self.fc2(x))return self.fc3(x)# 数据
x = torch.randn(1000, 1) * 3.14
y = torch.sin(x) + 0.1 * torch.randn(1000, 1)# 训练
model = RegressionNet()
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)for epoch in range(1000):optimizer.zero_grad()output = model(x)loss = criterion(output, y)loss.backward()optimizer.step()