一、执行

# 设置日志目录
export FD_LOG_DIR=/workspace/models/log
# 指定使用的 GPU 设备
export CUDA_VISIBLE_DEVICES=0,1,2,3
# 创建日志目录（如果不存在）
mkdir -p "$FD_LOG_DIR"
# 定义日志文件路径
LOG_FILE="$FD_LOG_DIR/fastdeploy_server_$(date +'%Y%m%d_%H%M%S').log"
# 启动服务并重定向输出到日志文件，后台运行
nohup python -m fastdeploy.entrypoints.openai.api_server \
--model /workspace/models/DeepSeek-R1-Distill-Qwen-32B_baidu \
--port 8180 \
--metrics-port 8181 \
--engine-worker-queue-port 8182 \
--gpu-memory-utilization 0.7 \
--max-model-len 8192 \
--max-num-seqs 32 \
--tensor-parallel-size 4 \
--reasoning-parser qwen3 > "$LOG_FILE" 2>&1 &

二、环境变量

🔹 1. CPU 与 BF16 相关

"FD_CPU_USE_BF16": lambda: os.getenv("FD_CPU_USE_BF16", "False"),
作用：是否在 CPU 上启用 BF16（BFloat16）精度计算。
默认值："False"
说明：
BF16 是一种半精度浮点格式，常用于加速推理，减少内存占用。
若设为 "True"，则在支持 BF16 的 CPU（如 Intel AMX 支持的处理器）上启用 BF16 计算。

🔹 2. CUDA 架构构建目标

"FD_BUILDING_ARCS": lambda: os.getenv("FD_BUILDING_ARCS", "[]"),
作用：指定编译 FastDeploy 时针对的 CUDA 架构（Compute Capability）。
默认值："[]"（空列表）
示例值："[80, 90]" 表示支持 SM80（Ampere）、SM90（Hopper）架构。
说明：影响编译生成的 CUDA 二进制代码兼容性。

🔹 3. 日志目录

"FD_LOG_DIR": lambda: os.getenv("FD_LOG_DIR", "log"),
作用：指定日志文件的存储目录。
默认值："log"
说明：所有运行日志将保存在此目录下。

🔹 4. 调试模式

"FD_DEBUG": lambda: os.getenv("FD_DEBUG", "0"),
作用：是否启用调试模式。
取值："0"（关闭）、"1"（开启）
说明：开启后可能输出更详细的日志，用于调试问题。

🔹 5. 日志保留天数

"FD_LOG_BACKUP_COUNT": lambda: os.getenv("FD_LOG_BACKUP_COUNT", "7"),
作用：保留最近多少天的日志文件。
默认值："7"（保留7天）
说明：配合日志轮转机制，防止磁盘被占满。

🔹 6. 模型下载源

"FD_MODEL_SOURCE": lambda: os.getenv("FD_MODEL_SOURCE", "AISTUDIO"),
作用：指定从哪个平台下载模型。
可选值：
"AISTUDIO"：百度 AI Studio
"MODELSCOPE"：魔搭（ModelScope）
"HUGGINGFACE"：Hugging Face
默认值："AISTUDIO"

🔹 7. 模型缓存目录

"FD_MODEL_CACHE": lambda: os.getenv("FD_MODEL_CACHE", None),
作用：模型下载后的本地缓存路径。
默认值：None（使用系统默认缓存路径）
说明：设置后可避免重复下载大模型。

🔹 8. 停止序列限制

"FD_MAX_STOP_SEQS_NUM": lambda: os.getenv("FD_MAX_STOP_SEQS_NUM", "5"),"FD_STOP_SEQS_MAX_LEN": lambda: os.getenv("FD_STOP_SEQS_MAX_LEN", "8"),
作用：
FD_MAX_STOP_SEQS_NUM：最多支持多少个“停止序列”（stop sequences），用于控制文本生成的终止。
FD_STOP_SEQS_MAX_LEN：每个停止序列的最大长度（字符数）。
说明：常用于 LLM 推理中，例如遇到“\n\n”或“###”时停止生成。

🔹 9. 可见 GPU 设备

"CUDA_VISIBLE_DEVICES": lambda: os.getenv("CUDA_VISIBLE_DEVICES", None),
作用：控制程序可见的 GPU 设备。
格式：用逗号分隔的设备 ID，如 "0,1,2"
说明：这是标准的 CUDA 环境变量，用于 GPU 资源隔离。

🔹 10. 使用 HuggingFace Tokenizer

"FD_USE_HF_TOKENIZER": lambda: os.getenv("FD_USE_HF_TOKENIZER", 0),
作用：是否使用 HuggingFace 提供的 tokenizer。
注意：默认值是 0（整数），但 os.getenv 返回字符串，这里可能应为 "0"。
说明：若为 1，则优先使用 HF 的分词器实现。

🔹 11. ZMQ 数据发送水位线

"FD_ZMQ_SNDHWM": lambda: os.getenv("FD_ZMQ_SNDHWM", 10000),
作用：设置 ZMQ（ZeroMQ）通信中发送队列的高水位线（High Water Mark）。
默认值：10000
说明：防止发送缓冲区无限增长，超过此值会丢弃旧消息或阻塞。

🔹 12. KV Cache 量化参数缓存目录

"FD_CACHE_PARAMS": lambda: os.getenv("FD_CACHE_PARAMS", "none"),
作用：用于缓存 KV Cache 量化相关参数的目录。
默认值："none" 表示不缓存。

🔹 13. 注意力机制后端

"FD_ATTENTION_BACKEND": lambda: os.getenv("FD_ATTENTION_BACKEND", "APPEND_ATTN"),
可选值：
"NATIVE_ATTN"：原生注意力
"APPEND_ATTN"：追加式注意力（可能用于流式生成）
"MLA_ATTN"：多头局部注意力（Multi-head Local Attention）
说明：选择不同的注意力实现方式，影响性能和内存使用。

🔹 14. 采样策略类

"FD_SAMPLING_CLASS": lambda: os.getenv("FD_SAMPLING_CLASS", "base"),
可选值：
"base"：基础采样（如 greedy、top-k、top-p）
"base_non_truncated"：非截断式基础采样
"air"：可能是 Advanced Inference Resampling
"rejection"：拒绝采样（Rejection Sampling）
说明：决定文本生成时的 token 采样策略。

🔹 15. MoE 后端实现

"FD_MOE_BACKEND": lambda: os.getenv("FD_MOE_BACKEND", "cutlass"),
作用：选择 Mixture of Experts (MoE) 模型的计算后端。
可选值：
"cutlass"：NVIDIA Cutlass 库，高性能 CUDA 矩阵计算
"marlin"：可能是量化推理优化库
"triton"：使用 Triton 编写的 kernel
说明：影响 MoE 模型的推理效率。

🔹 16. 是否禁用请求重计算

"FD_DISABLED_RECOVER": lambda: os.getenv("FD_DISABLED_RECOVER", "0"),
作用：当 KV Cache 满时，是否禁用恢复/重计算机制。
默认值："0"（不禁用，允许恢复）
说明：若禁用（设为 "1"），可能直接报错或丢弃请求。

🔹 17. Triton Kernel 缓存目录

"FD_TRITON_KERNEL_CACHE_DIR": lambda: os.getenv("FD_TRITON_KERNEL_CACHE_DIR", None),
作用：Triton 编译的 kernel 的缓存路径。
说明：避免重复编译，提升启动速度。

🔹 18. PD 解耦模式是否可变

"FD_PD_CHANGEABLE": lambda: os.getenv("FD_PD_CHANGEABLE", "0"),
作用：是否允许从“独立 PD 解耦”模式切换到“集中式推理”。
说明：PD 可能指 Pre-decoding 或 Parallel Decoding，用于加速生成。

🔹 19. 是否使用 fastsafetensor 加载权重

"FD_USE_FASTSAFETENSOR": lambda: os.getenv("FD_USE_FASTSAFETENSOR", "0"),
作用：是否使用 fastsafetensor 库快速加载 .safetensors 格式的模型权重。
优势：比标准方式更快，更安全（防止代码注入）。

🔹 20. 是否使用 DeepGemm（FP8 MoE）

"FD_USE_DEEP_GEMM": lambda: bool(int(os.getenv("FD_USE_DEEP_GEMM", "1"))),
作用：是否启用 DeepGemm（可能是针对 FP8 精度的 MoE 优化 GEMM 计算）。
转换逻辑：字符串 → int → bool
默认启用："1" → True

🔹 21. 是否使用聚合发送

"FD_USE_AGGREGATE_SEND": lambda: bool(int(os.getenv("FD_USE_AGGREGATE_SEND", "0"))),
作用：是否将多个小消息聚合后一次性发送（用于通信优化）。
默认关闭："0" → False
场景：分布式推理、多节点通信。

🔹 22-27. 分布式追踪（Tracing）配置

"TRACES_ENABLE": lambda: os.getenv("TRACES_ENABLE", "false"),"FD_SERVICE_NAME": lambda: os.getenv("FD_SERVICE_NAME", "FastDeploy"),"FD_HOST_NAME": lambda: os.getenv("FD_HOST_NAME", "localhost"),"TRACES_EXPORTER": lambda: os.getenv("TRACES_EXPORTER", "console"),"EXPORTER_OTLP_ENDPOINT": lambda: os.getenv("EXPORTER_OTLP_ENDPOINT"),"EXPORTER_OTLP_HEADERS": lambda: os.getenv("EXPORTER_OTLP_HEADERS"),
作用：集成 OpenTelemetry 等分布式追踪系统。
说明：
TRACES_ENABLE: 是否开启追踪。
FD_SERVICE_NAME: 服务名。
FD_HOST_NAME: 主机名。
TRACES_EXPORTER: 追踪数据输出方式（如 console, otlp, jaeger）。
EXPORTER_OTLP_ENDPOINT: OTLP 服务地址（如 http://localhost:4317）。
EXPORTER_OTLP_HEADERS: 发送 OTLP 请求时的头部（如认证信息）。

🔹 28. 启用 V1 版本的 KV Cache 调度器

"ENABLE_V1_KVCACHE_SCHEDULER": lambda: int(os.getenv("ENABLE_V1_KVCACHE_SCHEDULER", "0")),
作用：是否启用新版（v1）的 KV Cache 块调度器。
特点：无需设置 kv_cache_ratio，更智能地管理显存。
默认关闭："0"