由于我之前隻安裝了驅動,但缺NVCC等,安裝Toolkit 跟之前的沖突,需要解除安裝原有的驅動
隻安裝驅動看,但缺NVCC
chmod +x NVIDIA-Linux-x86_64-515.105.01.run
./NVIDIA-Linux-x86_64-515.105.01.run --uninstall
nvidia-smi - Persistence-M (Persistence Mode) 開啟
開啟前
開啟後
開啟指令
nvidia-smi -pm 1
以下是正式安裝,本次安裝的是PyTorch官方推薦的CUDA版本11.7
最新的是CUDA Toolkit 12.1,選擇Archive of Previous CUDA Releases,可以找到舊的版本,選擇對應的作業系統版本和cuda版本進行下載下傳
兩種安裝包,選擇其中一種就行,我選擇的是deb(local)
- run 字尾的,二進制檔案,下載下傳runfile(local),二進制檔案安裝,需要提前安裝gcc ,禁用 Nouveau 驅動
- deb 軟體包,下載下傳deb(local),這個需要在本地生成一個apt倉庫,通過apt安裝,還有一個de(network),這個是網絡遠端安裝,這裡就不用了
禁用 Nouveau 驅動
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
options nouveau modeset=0
sudo update-initramfs -u
reboot
cuda toolkit安裝
# 資料中心伺服器設定運作級别為多使用者模式,即黑屏,禁用圖形桌面,就不會有X11/xorg占用GPU
systemctl get-default
systemctl set-default multi-user.target
#根據作業系統版本選擇,注意pytorch 官方推薦的cuda版本
wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda-repo-ubuntu2004-11-7-local_11.7.0-515.43.04-1_amd64.deb
dpkg -i cuda-repo-ubuntu2004-11-7-local_11.7.0-515.43.04-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2004-11-7-local/cuda-15CCF53C-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda
pytorch 官方推薦的cuda版本
配置cuda環境變量
vi /etc/profile
export CUDA_VISIBLE_DEVICES=0,1
export PATH="$PATH:/usr/local/cuda/bin"
export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda/lib64/"
export LIBRARY_PATH="$LIBRARY_PATH:/usr/local/cuda/lib64"
nvidia-smi
cudnn安裝
sudo apt-get install zlib1g
tar -xf cudnn-linux-x86_64-8.6.0.163_cuda11-archive.tar.xz
sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include
sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
或者pip 安裝cudnn
測試是否安裝成功
nvidia-htop和nvitop安裝(友善檢視目前使用gpu的應用的具體路徑)
pip install nvidia-htop
pip install nvitop
jupyter notebook安裝
pip install jupyter
jupyter notebook --allow-root --ip='10.20.10.111' --notebook-dir=/data
jupyter notebook password