前言
在分布式推理中，多设备（如GPU、CPU）之间的数据传输（通信）是连接计算的“桥梁”。如果通信效率低下，即使单设备计算能力再强，整体性能也会大打折扣。想象一下：如果工厂之间的物流卡车跑得比生产速度还慢，再多的工厂也无法提高整体产量。

本节将从最基础的单设备内通信讲起，逐步扩展到多设备、多节点，甚至不同类型硬件（如GPU和国产芯片）的协同通信，最后介绍边缘设备与云端的通信优化。每个环节都会结合具体问题和解决方法，帮助你彻底理解“如何让数据跑得更快”。

一、设备内通信：GPU与CPU的“对话”

1. 为什么GPU和CPU需要通信？

在推理流程中，CPU和GPU的分工不同：

CPU：负责“前期准备”和“后期处理”，比如接收用户输入、文本分词（把句子拆成token）、整理输出结果等；
GPU：负责“核心计算”，比如Transformer模型的矩阵乘法、注意力计算等。

因此，数据必须在两者之间传递：

CPU → GPU：把分词后的token（转换成数字张量）传给GPU，让GPU进行推理；
GPU → CPU：把推理生成的结果（如文本token）传回CPU，由CPU整理成自然语言返回给用户。

这种“对话”的速度，直接影响整个推理的响应时间（比如用户从输入问题到看到回答的延迟）。

2. 通信的“高速公路”：PCIe总线

CPU和GPU之间通过PCIe总线连接，这是一条专门用于设备间数据传输的“高速公路”。目前主流的是PCIe 4.0，理论带宽约32GB/s（双向），新一代的PCIe 5.0可达64GB/s。

但这条“高速公路”有个特点：传输小数据时效率低。比如传输1KB的数据，实际耗时可能比传输1MB数据的1/1000还多。这是因为每次传输都需要附加“头部信息”（类似快递单），小数据的“快递单”占比太高。

3. 优化方法1：用“专用车道”——页锁定内存

普通情况下，CPU的内存（RAM）可能被操作系统“临时挪动”（比如内存不足时换出到硬盘），GPU无法直接访问。此时数据传输需要CPU先把数据“搬到”一块临时的固定内存，再传给GPU，相当于多了一次“中转”，耗时增加。

页锁定内存（Pin Memory） 是解决办法：它像“专用车道”，一旦分配就不会被操作系统挪动，GPU可以直接读取，省去中转步骤。

import torch
import time# 生成1个批次的输入数据（形状：[16, 512]，16条文本，每条512个token）
data_size = (16, 512)# 普通内存（可能被系统挪动）
cpu_data_normal = torch.randint(0, 10000, data_size)  # CPU上的普通张量
# 页锁定内存（固定位置，不被挪动）
cpu_data_pinned = torch.randint(0, 10000, data_size).pin_memory()  # 标记为页锁定# 测试传输速度：普通内存 → GPU
start = time.time()
gpu_data = cpu_data_normal.cuda()  # 传输到GPU
torch.cuda.synchronize()  # 等待传输完成
print(f"普通内存传输耗时：{time.time() - start:.4f}秒")  # 约0.0012秒# 测试传输速度：页锁定内存 → GPU
start = time.time()
gpu_data_pinned = cpu_data_pinned.cuda()  # 传输到GPU
torch.cuda.synchronize()
print(f"页锁定内存传输耗时：{time.time() - start:.4f}秒")  # 约0.0007秒（提速40%）

效果：页锁定内存传输速度通常比普通内存快30%~50%，尤其适合高频传输场景（如高并发推理）。

4. 优化方法2：“边生产边运输”——异步传输

默认情况下，数据传输（CPU→GPU）和GPU计算是“串行”的：必须等数据完全传到GPU，才能开始计算。就像“快递没到，工厂不能开工”。

异步传输可以让两者“并行”：GPU在计算当前批次时，CPU提前把下一批次数据传到GPU， overlapping（重叠）传输和计算时间。

# 异步传输：用CUDA流（Stream）实现并行
stream = torch.cuda.Stream()  # 创建一个独立的"任务流"

一、设备内通信：GPU与CPU的“对话”

1. 为什么GPU和CPU需要通信？

2. 通信的“高速公路”：PCIe总线

3. 优化方法1：用“专用车道”——页锁定内存

4. 优化方法2：“边生产边运输”——异步传输

相关文章

XGBoost 的适用场景以及与 CNN、LSTM 的区别

快速设计简单嵌入式操作系统（3）：动手实操，基于STC8编写单任务执行程序，感悟MCU指令的执行过程

Spring AI Alibaba - 聊天机器人快速上手

串口通信学习

面试经典150题[001]：合并两个有序数组（LeetCode 88）

快速安装达梦8测试库

Hive中优化问题

tlias智能学习辅助系统--Maven高级-继承

把 AI 押进“小黑屋”——基于 LLM 的隐私对话沙盒设计与落地

Java 大视界 -- Java 大数据在智能教育学习效果评估指标体系构建与精准评估中的应用（394）

Dubbo 3.x源码(33)—Dubbo Consumer接收服务调用响应

栈和队列：数据结构中的基础与应用

服务端配置 CORS解决跨域问题的原理

Unity笔记(五)知识补充——场景切换、退出游戏、鼠标隐藏锁定、随机数、委托

用 Spring 思维快速上手 DDD——以 Kratos 为例的分层解读

docspace|Linux|使用docker完全离线化部署onlyoffice之docspace文档协作系统（全网首发）

【教程】如何高效提取胡萝卜块根形态和颜色特征？

Python初学者笔记第二十四期 -- （面向对象编程）

Go 语言里 `var`、`make`、`new`、`:=` 的区别

计算机网络---IP（互联网协议）