TensorFlow 2.x 核心 API 与模型构建
TensorFlow 是一个强大的开源机器学习库，尤其在深度学习领域应用广泛。TensorFlow 2.x 在易用性和效率方面做了大量改进，引入了Keras作为其高级API，使得模型构建和训练更加直观和便捷。本文将介绍 TensorFlow 2.x 的核心 API 以及如何使用它们来构建和训练一个深度学习模型。
一、 TensorFlow 2.x 的核心理念
TensorFlow 2.x 的核心理念是：
易用性 (Ease of Use)：通过Keras作为首选的高级API，简化了模型的开发流程。
声明式编程 (Declarative Programming)：允许开发者定义计算图，但通过Eager Execution（即时执行）模式，使得构建和调试更加直观，类似于Python的命令式编程。
端到端 (End-to-End)：支持从数据准备、模型训练到模型部署的完整流程。
跨平台 (Cross-Platform)：可以在CPU、GPU、TPU以及服务器、桌面、移动设备等多种平台上运行。
二、 TensorFlow 2.x 的核心 API
TensorFlow 2.x 的API庞大且功能全面，但以下几个是构建和训练模型最常用的核心部分：
2.1 tf.keras：高级 API
tf.keras 是TensorFlow 2.x推荐并集成的首选高级API，它封装了模型构建、层定义、损失函数、优化器、评估指标等常用功能，提供了一套面向对象且易于使用的接口。
模型 (tf.keras.Model 和 tf.keras.Sequential)：
tf.keras.Sequential: 用于构建线性的、堆叠的层模型。非常适合顺序结构的网络。
tf.keras.Model: 更灵活的API，可以构建复杂的、具有多输入/输出、共享层、多分支的网络结构。通过子类化（subclassing）tf.keras.Model 来定义。
层 (tf.keras.layers.*)：
提供了构建神经网络的基本单元，如 Dense (全连接层), Conv2D (卷积层), MaxPooling2D (池化层), Flatten (展平层), Dropout (正则化层), BatchNormalization (批归一化层) 等。
每一层都有其可训练的权重（kernel 和 bias）。
损失函数 (tf.keras.losses.*)：
定义了模型预测与真实标签之间的差距，如 CategoricalCrossentropy, SparseCategoricalCrossentropy, MeanSquaredError。
优化器 (tf.keras.optimizers.*)：
实现了各种梯度下降的变种，用于更新模型的权重，如 Adam, SGD, RMSprop。
指标 (tf.keras.metrics.*)：
用于评估模型的性能，如 Accuracy, Precision, Recall, AUC。
2.2 tf.data：数据处理管道
tf.data API 提供了一种高效、灵活地构建输入数据管道的方式，能够处理大规模数据集，并与 tf.keras 无缝集成。
创建数据集：可以从NumPy数组、TensorFlow张量、CSV文件、TFRecords等多种数据源创建 tf.data.Dataset 对象。
数据转换：
map(): 对数据集中的每个元素应用一个函数（如数据增强、特征工程）。
shuffle(): 随机打乱数据集，通常在训练开始前使用。
batch(): 将数据集中的元素分组打包成批。
prefetch(): 在模型训练时，预先加载下一个批次的数据，避免CPU/GPU等待。
cache(): 将数据集内容缓存到内存或本地文件中，加快重复访问的速度。
2.3 tf.Tensor：张量（Tensors）
张量是 TensorFlow 的核心数据结构，类似于 NumPy 的数组。它们是多维数组，可以存储标量、向量、矩阵，乃至更高维度的数据。
创建张量：
tf.constant(): 创建一个不可更改的张量。
tf.Variable(): 创建一个可更改的张量，通常用于存储模型的可训练权重。
张量操作： TensorFlow 提供了丰富的张量运算函数，如 tf.add, tf.multiply, tf.matmul, tf.reduce_sum, tf.reshape 等。
Eager Execution：在 TensorFlow 2.x 中，张量操作会立即执行并返回结果，这使得调试和交互式开发非常方便。
2.4 自动微分 (tf.GradientTape)
自动微分是深度学习模型训练的关键。TensorFlow 2.x 使用 tf.GradientTape API 来记录计算过程，并计算损失函数关于模型变量的梯度。
三、使用 tf.keras 构建模型
有两种主要方式构建 tf.keras 模型：
3.1 顺序模型 (tf.keras.Sequential)
适用于线性堆叠的层，非常简单直观。
步骤：
创建一个 tf.keras.Sequential 实例。
通过 add() 方法将层依次添加到模型中。
最后，编译模型（指定优化器、损失函数、评估指标）。
使用 fit() 方法训练模型。
示例：构建一个简单的全连接网络进行MNIST图像分类
<PYTHON>

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# 1. 定义模型
model = keras.Sequential([
# 输入层：展平28x28的图像为784维的向量
layers.Flatten(input_shape=(28, 28), name='input_layer'),
# 第一个隐藏层：全连接层，256个神经元，ReLU激活函数
layers.Dense(256, activation='relu', name='hidden_layer_1'),
# Dropout层：防止过拟合，以0.2的比例丢弃神经元
layers.Dropout(0.2),
# 输出层：全连接层，10个神经元（对应0-9数字），softmax激活函数，输出概率分布
layers.Dense(10, activation='softmax', name='output_layer')
])

# 2. 编译模型
model.compile(optimizer=keras.optimizers.Adam(learning_rate=0.001),
loss=keras.losses.SparseCategoricalCrossentropy(), # MNIST标签是整数，使用SparseCategoricalCrossentropy
metrics=['accuracy'])

# （假设已加载并预处理好MNIST数据集: train_images, train_labels, test_images, test_labels）
# 例如：
(train_images, train_labels), (test_images, test_labels) = keras.datasets.mnist.load_data()
# 需要将像素值归一化到 [0, 1]
train_images = train_images.astype('float32') / 255.0
test_images = test_images.astype('float32') / 255.0

# 3. 训练模型
history = model.fit(train_images, train_labels,
epochs=10, # 训练轮数
batch_size=32, # 每个批次的大小
validation_split=0.2) # 从训练数据中划分20%作为验证集

# 4. 评估模型
test_loss, test_acc = model.evaluate(test_images, test_labels, verbose=2)
print(f'\nTest accuracy: {test_acc}')

# （可选）进行预测
# predictions = model.predict(test_images[:5])
# print(f'\nPredictions for first 5 test images:\n {predictions}')
3.2 函数式 API (tf.keras.Model 子类化)
适用于构建更复杂的模型，如多输入、多输出、共享层、非线性连接的模型。
步骤：
创建一个类，继承自 tf.keras.Model。
在 __init__ 方法中定义模型所需的层。
在 call() 方法中实现模型的前向传播逻辑，定义数据如何通过这些层。
实例化该类，然后编译和训练。
示例：构建一个更复杂的模型（例如，带残差连接）
<PYTHON>

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# 定义一个可以重用的残差块
def residual_block(x, filters, kernel_size=3):
# 存储输入，以便进行残差连接
shortcut = x

# 第一个卷积层
x = layers.Conv2D(filters, kernel_size, padding='same')(x)
x = layers.BatchNormalization()(x)
x = layers.Activation('relu')(x)

# 第二个卷积层
x = layers.Conv2D(filters, kernel_size, padding='same')(x)
x = layers.BatchNormalization()(x)

# 残差连接：如果输入和输出的特征维度不匹配，需要通过1x1卷积进行转换
if shortcut.shape[-1] != filters:
shortcut = layers.Conv2D(filters, (1, 1), padding='same')(shortcut)
shortcut = layers.BatchNormalization()(shortcut)

# 激活函数
x = layers.add([x, shortcut])
x = layers.Activation('relu')(x)
return x

# 定义主模型
class ComplexModel(keras.Model):
def __init__(self, num_classes=10):
super(ComplexModel, self).__init__()

# 输入层 - 假设输入尺寸为 (height, width, channels)
self.conv1 = layers.Conv2D(32, 3, activation='relu', padding='same', input_shape=(32, 32, 3))
self.pool1 = layers.MaxPooling2D((2, 2))

# 第一个残差块
self.res1 = residual_block(32, 32) # 32通道

# 第二个残差块（特征通道加倍）
self.res2 = residual_block(32, 64) # 64通道
self.pool2 = layers.MaxPooling2D((2, 2))

# 展平层
self.flatten = layers.Flatten()

# 全连接层
self.dense1 = layers.Dense(128, activation='relu')

# 输出层
self.dropout = layers.Dropout(0.5)
self.output_dense = layers.Dense(num_classes, activation='softmax')

def call(self, inputs, training=False): # training参数用于控制Dropout等层的行为
x = self.conv1(inputs)
x = self.pool1(x)

x = self.res1(x)
x = self.res2(x)
x = self.pool2(x)

x = self.flatten(x)
x = self.dense1(x)

if training: # 只在训练时应用Dropout
x = self.dropout(x)

return self.output_dense(x)

# 实例化模型
complex_model = ComplexModel(num_classes=10)

# 编译模型
complex_model.compile(optimizer=keras.optimizers.Adam(learning_rate=0.001),
loss=keras.losses.SparseCategoricalCrossentropy(),
metrics=['accuracy'])

# （假设已加载并预处理好CIFAR-10数据集）
# (train_images, train_labels), (test_images, test_labels) = keras.datasets.cifar10.load_data()
# ... 数据预处理 ...

# 训练模型
# history = complex_model.fit(train_images, train_labels, epochs=20, batch_size=64, validation_split=0.2)

# 评估模型
# test_loss, test_acc = complex_model.evaluate(test_images, test_labels, verbose=2)
# print(f'\nTest accuracy: {test_acc}')
四、数据处理管道 tf.data
使用 tf.data 可以高效地准备训练数据。
示例：构建MNIST数据集的 tf.data 管道
<PYTHON>

import tensorflow as tf
from tensorflow import keras

# 加载数据
(train_images, train_labels), (test_images, test_labels) = keras.datasets.mnist.load_data()

# 数据归一化和重塑
train_images = train_images.astype('float32') / 255.0
test_images = test_images.astype('float32') / 255.0
# 对于 Conv2D 层，输入数据需要一个通道维度 (batch, height, width, channels)
# MNIST 是灰度图，所以通道是 1
train_images = train_images[..., tf.newaxis]
test_images = test_images[..., tf.newaxis]

# 定义超参数
BATCH_SIZE = 64
BUFFER_SIZE = tf.data.AUTOTUNE # AUTOTUNE 会自动选择最佳的缓冲区大小

# 构建训练数据集管道
train_dataset = tf.data.Dataset.from_tensor_slices((train_images, train_labels))
train_dataset = train_dataset.shuffle(BUFFER_SIZE) # 打乱数据
train_dataset = train_dataset.batch(BATCH_SIZE) # 分批
train_dataset = train_dataset.prefetch(buffer_size=BUFFER_SIZE) # 预取数据

# 构建测试数据集管道 (通常不需要shuffle，但需要batch和prefetch)
test_dataset = tf.data.Dataset.from_tensor_slices((test_images, test_labels))
test_dataset = test_dataset.batch(BATCH_SIZE)
test_dataset = test_dataset.prefetch(buffer_size=BUFFER_SIZE)

# 现在可以直接将 train_dataset 和 test_dataset 传递给 model.fit() 和 model.evaluate()
# 示例：
# model = keras.Sequential([...]) # 假设模型已定义
# model.compile(...)
# history = model.fit(train_dataset, epochs=10, validation_data=test_dataset) # 可以直接传入dataset
# test_loss, test_acc = model.evaluate(test_dataset)
五、训练、评估与预测
model.fit()：这是模型训练的核心方法。
接受训练数据（X, y）或 tf.data.Dataset。
epochs: 训练的总轮数。
batch_size: mỗi批次样本数。
validation_data 或 validation_split: 用于验证模型的性能。
callbacks: 可以在训练过程中执行特定动作，如保存模型、早停（Early Stopping）。
model.evaluate()：用于评估模型在测试集或验证集上的性能。
接受测试数据（X, y）或 tf.data.Dataset。
返回损失值和指定的评估指标。
model.predict()：用于在新数据上进行预测。
接受输入数据。
对于分类任务，通常返回预测属于每个类别的概率；对于回归任务，返回预测值。
六、保存与加载模型
训练好的模型可以保存下来，以便后续使用或部署。
保存整个模型：包括模型结构、权重、优化器状态。
<PYTHON>

model.save('my_model.keras') # 新格式
# 或者
# model.save('my_model_h5', save_format='h5') # 旧格式
加载模型：
<PYTHON>

loaded_model = keras.models.load_model('my_model.keras')
仅保存权重：
<PYTHON>

model.save_weights('my_model_weights.weights.h5') # 会自动选择合适的格式
加载权重：
<PYTHON>

# 需要先构建模型结构
# complex_model_for_weights = ComplexModel()
# complex_model_for_weights.load_weights('my_model_weights.weights.h5')
七、总结
TensorFlow 2.x 通过 Keras API 极大地简化了深度学习模型的构建和训练过程。掌握 tf.keras.Sequential 和 tf.keras.Model 的使用，结合 tf.data 构建高效的数据管道，并理解 tf.Tensor 和 tf.GradientTape 的概念，是成为一名TensorFlow开发者的基础。

通过以上介绍，你应该已经对 TensorFlow 2.x 的核心 API 和模型构建有了初步的认识。在实际应用中，还需要不断探索更多的层类型、激活函数、优化器、正则化技术以及更复杂的数据处理方法，来解决各种实际的机器学习问题。

相关文章

TENGJUN防水TYPE-C连接器：工业级防护，认证级可靠，赋能严苛场景连接

【小呆的随机振动力学笔记】概率论基础

使用海康机器人相机SDK实现基本参数配置（C语言示例）

【IoTDB】时序数据库选型指南：为何IoTDB成为工业大数据场景的首选？

用计算思维“破解”复杂Excel考勤表的自动化之旅

PAT 1006 Sign In and Sign Out

【git】首次clone的使用采用-b指定了分支，还使用了--depth=1 后续在这个基础上拉取所有的分支代码方法

萝卜切丁机机构笔记

多张图片生成视频模型技术深度解析

中电金信：AI重构测试体系·智能化时代的软件工程新范式

100、23种设计模式之适配器模式（9/23）

线上环境CPU使用率飙升，如何排查

《sklearn机器学习——特征提取》

IEEE出版，限时早鸟优惠！|2025年智能制造、机器人与自动化国际学术会议 (IMRA 2025)

C# 基于halcon的视觉工作流-章30-圆圆距离测量

java设计模式二、工厂

Ubuntu 24.04 中 nvm 安装 Node 权限问题解决

Java面试-线程安全篇

R 语言科研绘图 --- 其他绘图-汇总2

【数学建模学习笔记】启发式算法：粒子群算法