大家好,我是 ai 学习的老章

介绍一个大模型并发性能测试工具

看一下我高频使用的,在2*4090显卡上部署的 DeepSeek-R1-0528-Qwen-8B 性能如何

_我_特别喜欢的三个DeepSeek版本

DeepSeek-R1-0528 蒸馏 Qwen3:8B 大模型,双 4090 本地部署,深得我心

LLM-Benchmark 项目简介

项目地址:https://github.com/lework/llm-benchmark

LLM-Benchmark 是一个专为大语言模型(LLM)设计的并发性能测试工具,旨在为模型开发者和运维人员提供自动化压力测试和性能报告生成能力。通过该工具,用户可以在不同并发场景下全面评估 LLM 服务的响应能力与稳定性,为模型部署和优化提供数据支持。

主要功能

  1. 多阶段并发测试
    LLM-Benchmark 支持从低并发到高并发的多阶段压力测试,帮助用户了解模型在不同负载下的表现,定位性能瓶颈。
  2. 自动化测试数据收集与分析
    工具自动采集每轮测试的详细数据,包括响应时间、吞吐量、错误率等,极大提升测试效率和数据准确性。
  3. 性能指标统计与可视化报告
    LLM-Benchmark 能生成详细的性能报告,支持可视化展示,方便用户直观分析测试结果。
  4. 短文本与长文本场景支持
    针对不同应用需求,工具支持短文本和长文本两种测试模式,覆盖更广泛的真实使用环境。
  5. 灵活的配置选项
    用户可通过命令行参数灵活配置测试目标、模型类型、并发数、请求数等关键参数,适应多种测试需求。
  6. JSON 输出支持
    测试结果可输出为 JSON 格式,便于后续数据分析或与其他工具集成。

适用场景

  • LLM 服务上线前的性能评估与优化
  • 不同模型、不同部署方式的横向对比
  • 长文本与短文本场景下的极限压力测试
  • 自动化回归测试与性能监控

核心文件包括

  • ‎⁠run_benchmarks.py⁠:自动化测试脚本,负责执行多轮压力测试、自动调整并发配置(1-300 并发)、收集和汇总测试数据,并生成美观的性能报告。
  • ‎⁠llm_benchmark.py⁠:并发测试的核心实现,负责管理并发请求、连接池,收集详细性能指标,并支持流式响应测试。
  • ‎⁠assets/⁠:资源文件夹,用于存储测试所需的辅助资源。
  • ‎⁠README.md⁠:项目文档,介绍工具用法和参数说明。

使用方法

1. 运行全套性能测试

通过 ‎⁠run_benchmarks.py⁠ 脚本,可以自动完成多轮不同并发量的压力测试,适合全面评估 LLM 服务性能:

python run_benchmarks.py \--llm_url "http://your-llm-server" \--api_key "your-api-key" \--model "your-model-name" \--use_long_context

参数说明:

  • ‎⁠–llm_url⁠:待测 LLM 服务的 URL(必填)
  • ‎⁠–api_key⁠:API 密钥(可选)
  • ‎⁠–model⁠:模型名称(默认 deepseek-r1)
  • ‎⁠–use_long_context⁠:启用长文本测试(默认 False)

2. 运行单次并发测试

如需针对特定并发量进行单轮测试,可使用 ‎⁠llm_benchmark.py⁠ 脚本:python llm_benchmark.py \

python llm_benchmark.py \--llm_url "http://your-llm-server" \--api_key "your-api-key" \--model "your-model-name" \--num_requests 100 \--concurrency 10

参数说明:

  • ‎⁠–num_requests⁠:总请求数(必填)
  • ‎⁠–concurrency⁠:并发数(必填)
  • 其他参数与上文类似,还可配置输出 token 数、请求超时、输出格式等。

性能报告与输出

我测试的是全套性能,使用了长上下文模式

python run_benchmarks.py \--llm_url "http://localhost:8001/v1" \--api_key "123" \--model "R1-0528-Qwen3-8B" \--use_long_context

结果如下:

返回性能测试指标的概念说明:

  • 1. RPS(每秒请求数,Requests Per Second)
    RPS 表示系统每秒能够处理的请求数量,是衡量系统吞吐能力的核心指标。反映模型或服务的并发处理能力,RPS 越高,说明系统单位时间内能服务更多用户,适合高并发场景。

  • 2. 平均延迟(秒,Average Latency)
    平均延迟指所有请求从发出到收到响应的平均耗时,衡量用户实际体验的响应速度,平均延迟越低,用户等待时间越短,体验越好。

  • 3. P99延迟(秒,P99 Latency)
    指 99% 的请求响应时间低于该值,只有 1% 的请求耗时更长。反映极端情况下的响应速度,衡量系统在高负载或偶发异常时的表现,适合评估服务的稳定性和最差体验。

  • 4. 平均TPS(Transactions Per Second)
    平均 TPS 表示每秒生成的 token 数量(在大模型场景下,通常指每秒生成的文本 token 数),衡量模型的实际生成速度,TPS 越高,说明模型生成文本的效率越高,适合需要快速输出的业务场景。

  • 5. 首Token延迟(秒,First Token Latency)
    首 Token 延迟是指从请求发出到生成第一个 token 的耗时,反映模型首次响应的启动速度,首 Token 延迟越低,用户首次看到回复的速度越快,提升交互体验。

这个结果还是不错的,50个并发情况下,平均延迟2.4
秒,平均TPS 42.44

  1. 吞吐量(RPS)提升明显
    随着并发数提升,RPS 从单并发的 0.91 快速提升到 300 并发下的 43.53,说明模型具备很强的高并发处理能力。
  2. 响应速度与延迟变化
    并发数提升带来平均延迟的增加,单并发下平均延迟仅 1.098 秒,300 并发时增至 12.62 秒,P99 延迟也有类似趋势。高并发下部分请求耗时显著增加。
  3. Token 延迟
    首 Token 延迟在低并发时极低(0.035 秒),但在 200/300 并发时升至 2.849 秒,说明高并发下模型启动响应速度有所下降。
  4. 平均 TPS 下降
    随着并发提升,平均 TPS 从 90.89 逐步下降到 12.62,反映高负载时单请求生成 token 的速度受到影响。
  5. 成功率始终 100%
    各并发场景下无失败请求,模型稳定性表现优秀。

作为对比,我让豆包帮我找了一下市面上主流平台DeepSeek API的生成速度

  • DeepSeek:DeepSeek-V3 的文本生成速度官方宣称是 60 tokens 每秒。但据一些测试数据显示,通过 API 向 DeepSeek-R1 模型服务器发送请求时,其生成速度有所波动,如 Content 部分 118 tokens,用时 3.12 秒,生成速度 37.76 tokens/s;总体生成 436 tokens,总用时 13.21 秒,平均速度 33.01 tokens/s 等。在深圳本地对 DeepSeek - R1 API 服务测试中,DeepSeek 官方的生成速度为 37.117 tokens/s,推理速度为 25.378 tokens/s。
  • 其他平台
    • 火山引擎:在深圳本地测试中,生成速度可达 65.673 tokens/s,在成都测试中生成速度高达 72.276 tokens/s。在对六家主流平台的 API 版本评测中,火山引擎平台的回复速度均值达到 32tokens/s,推理速度均值达到 29tokens/s,其在深度推理效率与系统稳定性方面优势显著。
    • 硅基流动:在深圳本地测试中,生成速度为 16.966 tokens/s。
    • 阿里云百炼:在深圳本地测试中,生成速度为 11.813 tokens/s,且呈现出明显的时段性波动特征。
    • 讯飞开放平台:在六家主流平台 API 版本评测中,推理速度均值为 1.2tokens/s,总平均速度表现较差。
    • Meta 的 Llama API:Cerebras 宣称其 Llama 4 Cerebras 模型的 tokens 生成速度高达 2600 tokens/s,Groq 提供的 Llama 4 Scout 模型速度为 460 tokens/s。

总结:资源有限DeepSeek-R1-0528-Qwen-8B 是你的不二之选

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

搭建完美的写作环境:工具篇(12 章)
图解机器学习 - 中文版(72 张 PNG)
ChatGPT、大模型系列研究报告(50 个 PDF)
108 页 PDF 小册子:搭建机器学习开发环境及 Python 基础
116 页 PDF 小册子:机器学习中的概率论、统计学、线性代数
史上最全!371 张速查表,涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/86100.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/86100.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/86100.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为云Flexus+DeepSeek征文|华为云 Dify 高可用部署教程:CCE 容器集群一键构建企业级智能应用

前言 在数字化转型加速的企业级应用场景中,构建高可用智能平台已成为业务创新的核心驱动力。本文深度解析基于华为云CCE容器服务的Dify智能应用部署实践,揭示如何通过云原生架构与AI技术的深度融合,实现企业知识管理、智能客服等场景的敏捷落…

Linux 多进程间通信(IPC)详解

在 Linux 系统中,多进程通信(Inter-Process Communication, IPC) 是实现多个进程之间数据交换和同步的重要机制。由于每个进程拥有独立的地址空间,因此需要借助特定的系统机制来实现信息共享。 📌 Linux 下常见的 6 种进程间通信方式 管道(Pipe)命名管道(FIFO)消息队…

服务器数据恢复——异常断电导致服务器故障的数据恢复案例

服务器数据恢复环境: 某服务器上有一组由12块硬盘组建的raid5磁盘阵列。 机房供电不稳定导致机房中该服务器非正常断电,重启服务器后管理员发现服务器无法正常使用。 意外断电可能会导致服务器上的raid模块损坏。 服务器数据恢复过程: 1、将故…

微信小程序中 rpx与px的区别

在微信小程序中的rpx比px方便的多 <!--pages/welcome/welcome.wxml--> <!--rpx替换px--> <image style"width:200rpx;height: 200rpx"src"/images/avatar/3.png"></image> <text>你好&#xff0c;冻梨</text> <but…

python3实现QQ官方机器人回调验证

考虑到第三方的机器人现在越来越难维持了&#xff0c;来捣鼓一下官方的机器人。虽然官方藏着掖着不肯开放很多功能&#xff0c;但起码能用。官方机器人的优点是稳定&#xff0c;只要申请成功&#xff0c;且你自己不乱搞&#xff0c;基本不存在被封的可能&#xff0c;缺点是藤子…

基于Vue3+TS的自定义指令开发与业务场景应用

文章目录 1. 前言2. 基础概念与优势​3. Vue3TS自定义指令的创建与注册​3.1. 创建自定义指令​3.2. 注册自定义指令​ 4. 实际场景示例​4.1. 权限指令控制​4.2. 图片懒加载指令​ 5. 优化与注意事项​ 1. 前言 在 Vue3 的开发生态中&#xff0c;自定义指令是一项极为灵活且…

Elasticsearch 索引文档的流程

Elasticsearch 索引文档的流程是一个分布式、多阶段的过程&#xff0c;涉及客户端请求、路由、主副本同步及持久化等步骤&#xff0c;具体流程如下&#xff1a; 一、客户端请求与路由 1.1 文档接收与路由计算‌ 客户端通过 REST API 发送文档写入请求&#xff0c;需指…

【unity】批量剔除图片四周空白像素的工具

摘要&#xff1a;Unity图片空白像素批量处理工具 该工具提供两种方式批量剔除图片空白像素&#xff1a; 静态处理类&#xff1a;提供TrimTexture方法&#xff0c;可读取纹理像素数据&#xff0c;计算非透明区域边界&#xff0c;生成裁剪后的新纹理&#xff1b;SaveTexture方法…

可编辑64页PPT | 基于DeepSeek的数据治理方案

荐言摘要&#xff1a;在数据量爆炸式增长且业务需求日益复杂的当下&#xff0c;企业数据治理面临着数据分散、标准混乱、价值挖掘难等诸多挑战。我们基于DeepSeek强大的智能能力&#xff0c;为企业量身打造创新数据治理方案。 DeepSeek凭借其卓越的自然语言处理和深度学习技术…

启用AWS VPC流日志保存到CloudWatch日志组

目标 启用VPC流日志 启用流日志 选择vpc&#xff0c;开始启用流日志&#xff0c;如下图&#xff1a; 设置名称和日志组&#xff0c;创建流日志&#xff0c;如下图&#xff1a; 参考 AWS云中的VPC启用流日志保存S3&#xff08;AWS中国云&#xff09;创建发布到 CloudWatc…

游戏引擎学习路径与技术栈指南

游戏引擎架构全景图&#xff08;基于GAMES104 V2.2思维导图&#xff09; graph TDA[基础架构] --> A1[面向数据管理]A --> A2[任务系统]A1 --> A11[ECS架构]A1 --> A12[内存优化]A2 --> A21[Job System]A2 --> A22[依赖调度]B[工具链] --> B1[编辑器框架]…

预训练大语言模型

Encoder-only model&#xff08;Autoencoding model&#xff09; 使用掩码语言模型&#xff08;Masked Language Modeling, MLM&#xff09;进行预训练输入原始语句和掩码&#xff0c;训练目标是预测掩码标记&#xff0c;一遍重建原始句子->也称为降噪目标&#xff08;deno…

C++信奥赛闯关题目1

1闰年 输入一个年份,输出它是否为闰年 闰年的规则: 描述:能被4整除,并且不能被100整除的,再加上可以被400整除的 版本一:原始版 #include <iostream> #include <cmath> using namespace std; int main() {int y;cin>>y;bool x = y%4==0&&y…

Qt+OPC开发笔记(三):OPC客户端订阅特点消息的Demo

若该文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/148868209 长沙红胖子Qt&#xff08;长沙创微智科&#xff09;博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV…

嵌入式开发学习日志Day8(ARM体系架构——按键、蜂鸣器及中断)

一、蜂鸣器学习 代码实现&#xff1a; 二、BSP工程管理及Makefile 1、BSP工程管理 利用BSP工程管理&#xff0c;使文档显示不杂乱&#xff1b; 将这些文件分为4类&#xff0c;并保存到4个不同的文件夹里。 首先在新的工程文件夹里创建一个之后我们编写的类似led驱动&#xff0…

Linux部署Sonic前后端(详细版)(腾讯云)

系统用的是Ubuntu 22.04 LTS 1、安装Docker sudo apt update sudo apt install -y docker.io docker-compose sudo systemctl start docker sudo systemctl enable docker# 如果不想每次用 sudo&#xff0c;可以加权限 sudo usermod -aG docker $USER 2、安装 docker-compose…

腾讯云CBS:企业级云存储的性能与可靠性重构

摘要 根据Forrester 2025年网络分析与可见性&#xff08;NAV&#xff09;报告&#xff0c;东西向流量安全与加密威胁检测成为企业核心痛点&#xff08;误报率降低需求↑40%&#xff09;。腾讯云CBS作为底层存储支柱&#xff0c;通过三副本跨可用区冗余架构与毫秒级故障切换能力…

ubuntu 22.04 更换阿里源 (wsl2 参照)

步骤 1: 备份当前源列表 sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak 步骤 2: 编辑源列表文件 sudo nano /etc/apt/sources.list 步骤 3: 添加阿里云镜像源 ubuntu 阿里源地址可以在这查看 ubuntu镜像_ubuntu下载地址_ubuntu安装教程-阿里巴巴开源镜像站 …

idea中push拒绝,merge,rebase的区别

在 IntelliJ IDEA 中进行 Git 操作时&#xff0c;Push 拒绝&#xff08;Push Rejected&#xff09;、Merge 和 Rebase 是常见的冲突解决方式。它们有不同的适用场景和影响&#xff0c;下面详细说明它们的区别&#xff0c;并附上流程图帮助理解。 1. Push 拒绝&#xff08;Push …

轻松实现PDF局部擦除的技术级解决方案

在处理PDF文档时&#xff0c;我们常常会遇到这样的场景&#xff1a;想要删除某段文字、擦除一张图片&#xff0c;或者对页面内容进行局部调整。但很多编辑工具要么操作繁琐&#xff0c;要么功能受限&#xff0c;甚至还需要付费解锁核心功能。 这是一款轻便又实用的PDF编辑工具…