背景

八张K100的风扇已经将近一年没转过了…
早在今年4月29日，Qwen3正式发布并全部开源8款「混合推理模型」。作为Qwen系列中的最新一代大型语言模型，Qwen3在推理、指令遵循、工具调用、多语言能力等方面进行了全面增强。
海光DCU（Deep Computing Unit，深度计算单元）是海光信息推出的高端GPGPU架构AI加速卡，致力于为行业客户提供自主可控的全精度通用AI加速计算解决方案。凭借卓越的算力性能和完备的软件生态，海光DCU已在科教、金融、医疗、政务、智算中心等多个领域实现规模化应用。

突然

请添加图片描述

部署

在这里插入图片描述
拉镜像

docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.8.4-ubuntu22.04-dtk25.04-rc7-das1.5-py3.10-20250429-dev-qwen3-only

起容器

docker run -it   --network=host   --hostname=localhost   --name Qwen3-vllm_test   -v /opt/hyhal:/opt/hyhal:ro   -v $PWD:/workspace   --ipc=host   --device=/dev/kfd   --device=/dev/mkfd   --device=/dev/dri   --shm-size=512G   --privileged   --group-add video   --cap-add=SYS_PTRACE   -u root   --security-opt seccomp=unconfined -v /nfs2:/home/weight  image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.8.4-ubuntu22.04-dtk25.04-rc7-das1.5-py3.10-20250429-dev-qwen3-only   /bin/bash

装依赖

pip install -U transformers

起服务

cd workspace
vllm serve /home/weight/Qwen3-32B -tp 4 --enforce-eager

请添加图片描述

一气呵成

背景

突然

部署

相关文章

场外交易（OTC）财富管理系统开发及解决方案报告

pytorch底层原理学习--JIT与torchscript

Ubuntu+Nginx+php+SQLite3+typecho手动搭建个人博客

网络协议概念与应用层

pytorch学习—7.处理多维特征的输入

AI助手“智普清言”《三元》(Python)诗解

本地RAG实战：用Spring AI+Ollama+DeepSeek+ChromaDB增强文档问答

Python 数据分析：DataFrame，生成，用字典创建 DataFrame ，键值对数量不一样怎么办？

Java 并发编程的 CAS（Compare and Swap）是什么？

【UnityAssetBundle】AssetBundle打包

Hush Puppies大中华区鞋类业务移交品牌方继续经营

解释LLM怎么预测下一个词语的

DAY 49 CBAM注意力

【网络】Linux 内核优化实战 - net.ipv4.conf.all.rp_filter

ElementUI el-select多选下拉框，回显数据后无法重新选择和修改

计算机视觉的新浪潮：扩散模型（Diffusion Models）技术剖析与应用前景

「Java流程控制」跳转语句

R1-Searcher使用强化学习增强语言模型解决问题的搜索能力

C++中的虚函数与纯虚函数

(LeetCode 每日一题) 3330. 找到初始输入字符串 I (字符串)