背景
- 八张K100的风扇已经将近一年没转过了…
- 早在今年4月29日,Qwen3正式发布并全部开源8款「混合推理模型」。作为Qwen系列中的最新一代大型语言模型,Qwen3在推理、指令遵循、工具调用、多语言能力等方面进行了全面增强。
- 海光DCU(Deep Computing Unit,深度计算单元)是海光信息推出的高端GPGPU架构AI加速卡,致力于为行业客户提供自主可控的全精度通用AI加速计算解决方案。凭借卓越的算力性能和完备的软件生态,海光DCU已在科教、金融、医疗、政务、智算中心等多个领域实现规模化应用。
突然
部署
拉镜像
docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.8.4-ubuntu22.04-dtk25.04-rc7-das1.5-py3.10-20250429-dev-qwen3-only
起容器
docker run -it --network=host --hostname=localhost --name Qwen3-vllm_test -v /opt/hyhal:/opt/hyhal:ro -v $PWD:/workspace --ipc=host --device=/dev/kfd --device=/dev/mkfd --device=/dev/dri --shm-size=512G --privileged --group-add video --cap-add=SYS_PTRACE -u root --security-opt seccomp=unconfined -v /nfs2:/home/weight image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.8.4-ubuntu22.04-dtk25.04-rc7-das1.5-py3.10-20250429-dev-qwen3-only /bin/bash
装依赖
pip install -U transformers
起服务
cd workspace
vllm serve /home/weight/Qwen3-32B -tp 4 --enforce-eager
一气呵成