第一步:下载anaconda for mac
https://zhuanlan.zhihu.com/p/350828057 知乎保姆级教程
https://www.anaconda.com/docs/getting-started/anaconda/install#macos-linux-installation 下载地址

第二步:部署vllm的虚拟环境
https://www.53ai.com/news/OpenSourceLLM/2025040116542.html

注意⚠️ vllm不支持python 3.13及以上版本,所以配置时得指定
https://docs.vllm.ai/en/latest/getting_started/installation/gpu.html
conda create -n usingvllm python=3.10 jupyter
conda activate usingvllm
git clone https://github.com/vllm-project/vllm.git 已经clone
pip install torch torchvision
一次性安装所有 vLLM 的依赖
pip install -e .
如果报了error可能是没有install成功。

检查
du -sh ~/.cache/huggingface/hub/models–tiiuae–falcon-7b-instruct
删除
rm -rf ~/.cache/huggingface/hub/models–tiiuae–falcon-7b-instruct

第三步:从offline_inference+qwen3入手
快速开始:本地推理从examples/offline_inference/basic/basic.py开始
● LLM 是用于运行 vLLM 引擎离线推理的主类。
● SamplingParams 指定了采样过程的参数。
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
● 采样温度(输出的随机程度):越小越保守(0.1),越高越创造性(1.0-1.2)
● 核心采样概率top_p(nucleus sampling):采样时候选词概率总和,表示模型会从累计概率为前 95% 的候选词中选一个(对比top-k 选前k个词)
llm = LLM(model=“facebook/opt-125m”)
● 模型从https://huggingface.co/Qwen/Qwen3-0.6B

在线服务从examples/online_serving/openai_completion_client.py开始
第四步:本地跑serve出错及解决

Load and run the model:

vllm serve “Qwen/Qwen3-0.6B”

● 解决——不选择默认的=4,调整最大maxlen:
export VLLM_CPU_KVCACHE_SPACE=8
vllm serve “Qwen/Qwen3-0.6B” --max-model-len 2048

已上在vsc部署成功(约等于把自己电脑当成服务器了)

另起终端
//Call the server using curl:
curl -X POST “http://localhost:8000/v1/chat/completions”
-H “Content-Type: application/json”
–data ‘{
“model”: “Qwen/Qwen3-0.6B”,
“messages”: [
{
“role”: “user”,
“content”: “What is the capital of France?”
}
]
}’
输出:

对应“服务器”输出:即为部署成功。

分析:

  1. WARNING [cpu.py:248] Pin memory is not supported on CPU.使用的是 CPU 环境(Mac M3 Pro 无 CUDA),这个警告是预期的,不会影响结果,只是说不能做 pinned memory 提速(只有 GPU 可用)。
  2. INFO [metrics.py:417] Avg prompt throughput: 3.0 tokens/s
    INFO [metrics.py:417] Avg generation throughput: 10.5 tokens/s
    模型每秒处理平均 3 个 prompt token,生成 token 平均 10.5 个/s,对于 Mac CPU 跑的模型来说,这个速度是完全合理的(0.6B 的 Qwen 模型)
  3. INFO: 127.0.0.1:58210 - “POST /v1/chat/completions HTTP/1.1” 200 OK
    响应状态码 200,说明接口调用完全成功,用 curl 或 Python requests.post() 调用的 API 得到了返回结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/95570.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/95570.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/95570.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Go语言Range用法全解析

引言Go 语言中的 range 关键字是集合遍历的核心语法结构,它提供了一种高效且类型安全的方式来迭代各种数据结构。range 的设计完美体现了 Go 语言的工程哲学 - 通过最小化的语法提供最大化的功能。标准库中的许多关键组件(如 sync.Map、bufio.Scanner 等…

mysql进阶语法(视图)

1、视图概念 是从一个或多个表中导出来的表,它是一种虚拟存在的表,表的结构和数据都依赖于基本表 应用场景: 多个地方用到同样的查询结果该查询结果用到复杂的select语句 视图优点: 简化查询语句:简化用户的查询操作&a…

编程范式:提升抽象能力的思维工具

这是一个编程中的核心概念,它代表了编写程序的一套基本风格、方法论和哲学。学习不同的编程范式,就像学习用不同的工具和思维方式来解决问题,能极大地提升你作为程序员的抽象能力和解决问题的能力。一、什么是编程范式?编程范式 是…

阿里云-基于通义灵码实现高效 AI 编码 | 1 | 在 Visual Studio Code 中安装和使用灵码

文章目录一、在 Visual Studio Code 中安装和使用灵码1.1 准备工作1.2 在 Visual Studio Code 安装通义灵码1.3 登录阿里云账号免费个人运维知识库,欢迎您的订阅:literator_ray.flowus.cn 一、在 Visual Studio Code 中安装和使用灵码 本安装步骤适用于…

WordPress搭建个人网站(Linux版)

WordPress搭建个人网站,使用Linux系统。我需要详细说明整个过程,包括环境准备、安装步骤、配置优化等。首先,用户可能对Linux不太熟悉,所以需要从基础开始,比如选择合适的Linux发行版,如Ubuntu或CentOS。然…

ES模块(ESM)、CommonJS(CJS)和UMD三种格式

vite的build.lib配置生成了三种格式:ES模块(ESM)、CommonJS(CJS)和UMD。它们的主要区别和适用场景如下: ES模块(.mjs): 使用现代JavaScript的模块语法(import…

2026届IC秋招联芸科技IC面经(完整面试题)

联芸科技2026届数字IC后端面经数字后端培训实战项目六大典型后端实现案例 首先是自我介绍。这个每家公司必备环节。这部分内容需要自己提前准备,避免太过紧张影响发挥。 数字IC后端经典笔试题IC秋招笔试题之时序报告解析 1)拿到netlist和sdc后你会如何…

一维水动力模型有限体积法(四):高级实现——平衡源项、边界条件与算法总成

引言 成功实现一个稳定且精确的水动力学模型,关键在于妥善处理源项和边界条件。这两个环节是数值格式产生非物理振荡和误差的主要来源。本章将详细介绍“守恒-平衡”(well-balanced)格式的核心技术,以及通过“虚拟单元”实现各类物…

VAE(变分自动编码器)技术解析

VAE(Variational Auto-Encoder, 变分自动编码器)1、VAE的结构为什么使用重参数化?2、VAE的代码实现1.重构损失(Reconstruction Loss)2.KL散度(Kullback-Leibler Divergence Loss)1)E…

嵌入式单片机---串口通信及相关通信技术

一、通信方式分类(一)按数据传输线路数量划分:串行通信与并行通信类别定义特点并行通信多个比特同时通过并行线进行传输优点:传输速率较高;缺点:占用大量芯片资源串行通信将数据拆分成一个个比特&#xff0…

Elasticsearch面试精讲 Day 8:聚合分析与统计查询

【Elasticsearch面试精讲 Day 8】聚合分析与统计查询 文章标签:Elasticsearch, 聚合查询, 统计分析, Aggregations, 面试, 大数据, 搜索引擎, 后端开发, 数据分析 文章简述: 本文是“Elasticsearch面试精讲”系列的第8天,聚焦聚合分析与统计…

HTML HTML基础(2)

1.开发者文档W3C官网: www.w3c.org W3School: www.w3school.com.cn MDN: developer.mozilla.org —— 推荐。2.排版标签标签名标签含义单 / 双 标签h1 ~ h6标题双p段落双div没有任何含义,用于整体布局双(1). h1 最好写一个&#x…

spring.profiles.active配置的作用

1. spring.profiles (或文件名中的 ?):定义配置的名称这是声明一段配置属于哪个 Profile。在同一个 application.yml 中:使用 spring.profiles 键来为一个配置段打上标签。yamlspring:profiles: dev # 【定义】这个配置段的名称是‘dev’ server:port: …

【开题答辩全过程】以 高校教室管理系统为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

Aurobay EDI 需求分析:OFTP2 与 EDIFACT 驱动的汽车供应链数字化

Aurobay 是由吉利汽车集团与沃尔沃汽车集团合资成立的动力系统公司,总部位于瑞典哥德堡。其供应链系统广泛采用 EDI(电子数据交换)技术进行标准化通信与业务协作。通过严谨的 EDI 传输规范,其与供应商之间构建了高效、安全的数据交…

yolov8环境配置:从安装到卸载,从入门到放弃。

yolov8环境配置:从安装到卸载,从入门到放弃。 先讲安装再到删除。 前置环境安装:Conda 这里我选用MiniConda 使用清华的镜像安装:https://mirror.tuna.tsinghua.edu.cn/anaconda/miniconda/ 直接安装到C盘(免得后续…

神马 M63S+ 438T矿机评测:SHA-256算法高效能挖矿利器

在加密货币的挖矿世界里,硬件设备的性能直接影响着矿工的挖矿效率与收益。而对于选择比特币(BTC)与比特币现金(BCH)等基于SHA-256算法的矿工来说,矿机的算力、功耗、能效比等参数无疑是至关重要的。在这篇文…

vue2滑块验证

纯 Vue 2 实现的滑块拖动验证组件效果说明拖动滑块到最右侧判定为验证成功支持自定义宽度、高度、颜色、提示文字可扩展轨迹分析或后端验证逻辑Vue 2 滑块验证组件代码SliderVerify.vue注意&#xff1a;icon图标使用的是Element ui图标<template><div class"slid…

74、在昇腾服务器 800I A2上迁移伏羲1.0/2.0大模型,并对比cpu和npu的精度

基本思想&#xff1a;在昇腾服务器上迁移github公开链接的的伏羲1.0/2.0大模型&#xff0c;但是由于伏羲2.0模型没有权重&#xff0c;这里使用自己造的的权重进行推理模型测试&#xff0c;在之前迁移过这个网站问海大模型和问天大模型人工智能天气预报模型示范计划AIM-FDP支撑平…

如何高效比对不同合同版本差异,避免法律风险?

智能文档比对系统通过自动化、高精度的差异比对与结构化报告&#xff0c;锁定合同修改、防止核心条款误删并实现版本清晰追溯&#xff0c;解决证券基金公司在合同范本管理中的操作风险、审核效率与归档难题。 如何防止业务人员误改或误删合同条款&#xff1f; 这是一个典型的操…