目录
1.系统版本信息
2.安装nvidia驱动
3.CUDA安装
4.docker离线安装
1.系统版本信息
查看一下系统版本,命令为:
cat /etc/kylin-release
2.安装nvidia驱动
编辑/usr/lib/modprobe.d/dist-blacklist.conf文件
blacklist nvidiafb加#号注释掉
添加如下内容
blacklist nouveau
options nouveau modest=0
卸载nvidia驱动开源驱动模块,卸载后直接重启
#nouveau 是 NVIDIA 显卡的开源驱动模块;在安装 NVIDIA 官方驱动前执行此命令的主要目的是避免开源驱动与官方驱动冲突
rmmod nouveau
安装驱动所需依赖,命令如下:
dnf install gcc kernel-devel-$(uname -r) kernel-headers-$(uname -r) make elfutils-libelf-devel tar bzip2 dkms acpid wget -y
官网下载驱动文件然后上传到服务器,下载地址为:
NVIDIA GeForce 驱动程序 - N 卡驱动 | NVIDIAhttps://www.nvidia.cn/geforce/drivers/根据显卡型号以及系统版本下载驱动,麒麟系统也是选择Linux 64-bit,点击开始搜索
搜索到驱动,根据自己需要的版本点击获取下载即可开始下载,我这里直接下载最新的575;下载好了之后通过sftp传到服务器上
给驱动安装脚本权限,然后运行安装
#*代表驱动版本,根据自己下载的版本进行修改
chmod +x NVIDIA-Linux-x86_64-*.run
./NVIDIA-Linux-x86_64-*.run
安装过程会让你做各种选择,看不懂直接复制到翻译软件,然后根据需求进行选择即可
安装好之后,用nvidia-smi查看显卡是否能被识别了
3.CUDA安装
进入官网下载安装cuda,下载地址为:
developer.nvidia.com/cuda-downloadshttps://developer.nvidia.com/cuda-downloads根据自己的系统版本以及安装方式进行选择,我们这里选择KylinOS 10即可;安装方式还是rpm本地
选好之后,会告诉你要运行什么命令进行安装,按照执行即可
安装后之后设置一下环境变量
vi ~/.bashrc
添加如下内容
export PATH=$PATH:/usr/local/cuda/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64
export LIBRARY_PATH=$LIBRARY_PATH:/usr/local/cuda/lib64
使用命令重新加载环境变量
#重新加载当前用户的 Bash 配置文件
source ~/.bashrc
通过nvcc -V查看CUDA的版本,有输出代表安装好了
4.docker离线安装
到阿里云镜像站下载docker的离线安装包,下载地址为:
docker-ce-linux-static-stable-x86_64安装包下载_开源镜像站-阿里云docker-ce-linux-static-stable-x86_64安装包是阿里云官方提供的开源镜像免费下载服务,每天下载量过亿,阿里巴巴开源镜像站为包含docker-ce-linux-static-stable-x86_64安装包的几百个操作系统镜像和依赖包镜像进行免费CDN加速,更新频率高、稳定安全。https://mirrors.aliyun.com/docker-ce/linux/static/stable/x86_64选择要安装的版本,我这里选择最新的28.3.2
将下载的压缩包通过SFTP上传到服务器,并用tar命令进行解压,详细命令为:
#*为docker版本
tar -zxvf docker-*.tgz
把解压的文件复制到/usr/bin/目录,命令为
#注意我这里docker压缩包是放在/root目录下的,本条命令执行也是在/root目录下,如果目录不同请记得修改路径
cp docker/* /usr/bin
这时候我们使用docker -v可以看到docker的版本了
还需要把docker注册成服务,需要编辑文件/etc/systemd/system/docker.service
#编辑/etc/systemd/system/docker.service文件
vi /etc/systemd/system/docker.service
添加如下内容:
[Unit]
Description=Docker Application Container Engine
Documentation=https://docs.docker.com
After=network-online.target firewalld.service
Wants=network-online.target[Service]
Type=notify
# the default is not to use systemd for cgroups because the delegate issues still
# exists and systemd currently does not support the cgroup feature set required
# for containers run by docker
ExecStart=/usr/bin/dockerd
ExecReload=/bin/kill -s HUP $MAINPID
# Having non-zero Limit*s causes performance problems due to accounting overhead
# in the kernel. We recommend using cgroups to do container-local accounting.
LimitNOFILE=infinity
LimitNPROC=infinity
LimitCORE=infinity
# Uncomment TasksMax if your systemd version supports it.
# Only systemd 226 and above support this version.
#TasksMax=infinity
TimeoutStartSec=0
# set delegate yes so that systemd does not reset the cgroups of docker containers
Delegate=yes
# kill only the docker process, not all processes in the cgroup
KillMode=process
# restart the docker process if it exits prematurely
Restart=on-failure
StartLimitBurst=3
StartLimitInterval=60s[Install]
WantedBy=multi-user.target
配置完服务,我们开启一下docker服务以及设置服务开机自启动
#开启docker服务
systemctl start docker
#设置docker服务开机自启动
systemctl enable docker
输入docker ps等命令可以正常使用,服务正常
总结下来就一句话,麒麟v10打英伟达驱动以及安装CUDA的步骤和rhel9(rockylinux9 almalinux9)是一模一样的。。。。。。