『大模型笔记』并发请求中的 Prefill 与 Decode:优化大语言模型性能 |
文章目录
- 一. Token 生成的两个阶段:Prefill 和 Decode
- 1.1. 指标分析
- 1.2. 资源利用率分析
- 二. 并发处理机制
- 2.1. 静态批处理 vs 持续批处理(Static Batching vs. Continuous Batching)
- 2.2. Prefill 优先策略
- 2.3. 分块 Prefill 策略(Chunked Prefill)
- 三. 参考文献
系列文章,目录如下:
- 第0篇:『大模型笔记』基于Transformer的生成式模型分布式服务系统
- 第1篇:『大模型笔记』高效请求排队:优化大语言模型(LLM)性能
- 第2篇:『大模型笔记』并发请求中的 Prefill