天天看點

NVIDIA V100 環境配置(下)-安裝

作者:巴菲才左國特
由于我之前隻安裝了驅動,但缺NVCC等,安裝Toolkit 跟之前的沖突,需要解除安裝原有的驅動
NVIDIA V100 環境配置(下)-安裝

隻安裝驅動看,但缺NVCC

chmod +x NVIDIA-Linux-x86_64-515.105.01.run
./NVIDIA-Linux-x86_64-515.105.01.run --uninstall           

nvidia-smi - Persistence-M (Persistence Mode) 開啟

NVIDIA V100 環境配置(下)-安裝

開啟前

NVIDIA V100 環境配置(下)-安裝

開啟後

開啟指令

nvidia-smi -pm 1           

以下是正式安裝,本次安裝的是PyTorch官方推薦的CUDA版本11.7

最新的是CUDA Toolkit 12.1,選擇Archive of Previous CUDA Releases,可以找到舊的版本,選擇對應的作業系統版本和cuda版本進行下載下傳

兩種安裝包,選擇其中一種就行,我選擇的是deb(local)

  1. run 字尾的,二進制檔案,下載下傳runfile(local),二進制檔案安裝,需要提前安裝gcc ,禁用 Nouveau 驅動
  2. deb 軟體包,下載下傳deb(local),這個需要在本地生成一個apt倉庫,通過apt安裝,還有一個de(network),這個是網絡遠端安裝,這裡就不用了
NVIDIA V100 環境配置(下)-安裝

禁用 Nouveau 驅動

sudo vim /etc/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
options nouveau modeset=0

sudo update-initramfs -u

reboot           
NVIDIA V100 環境配置(下)-安裝

cuda toolkit安裝

# 資料中心伺服器設定運作級别為多使用者模式,即黑屏,禁用圖形桌面,就不會有X11/xorg占用GPU
systemctl get-default
systemctl set-default multi-user.target

#根據作業系統版本選擇,注意pytorch 官方推薦的cuda版本
wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda-repo-ubuntu2004-11-7-local_11.7.0-515.43.04-1_amd64.deb
dpkg -i cuda-repo-ubuntu2004-11-7-local_11.7.0-515.43.04-1_amd64.deb 
sudo cp /var/cuda-repo-ubuntu2004-11-7-local/cuda-15CCF53C-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda           
NVIDIA V100 環境配置(下)-安裝

pytorch 官方推薦的cuda版本

配置cuda環境變量

vi /etc/profile

export CUDA_VISIBLE_DEVICES=0,1
export PATH="$PATH:/usr/local/cuda/bin"
export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda/lib64/"
export LIBRARY_PATH="$LIBRARY_PATH:/usr/local/cuda/lib64"           

nvidia-smi

NVIDIA V100 環境配置(下)-安裝
NVIDIA V100 環境配置(下)-安裝

cudnn安裝

sudo apt-get install zlib1g
tar -xf  cudnn-linux-x86_64-8.6.0.163_cuda11-archive.tar.xz 
sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include
sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*           

或者pip 安裝cudnn

NVIDIA V100 環境配置(下)-安裝

測試是否安裝成功

NVIDIA V100 環境配置(下)-安裝

nvidia-htop和nvitop安裝(友善檢視目前使用gpu的應用的具體路徑)

pip install nvidia-htop

pip install  nvitop            
NVIDIA V100 環境配置(下)-安裝
NVIDIA V100 環境配置(下)-安裝

jupyter notebook安裝

pip install jupyter
jupyter notebook --allow-root  --ip='10.20.10.111' --notebook-dir=/data
jupyter notebook password           

繼續閱讀